老趙那邊非常利索地把服務器的賬號密碼發(fā)了過來,順便還非常貼心地把江大自己開發(fā)的服務器登錄器也發(fā)了一個過來。
蘇飛按照Linux系統(tǒng)的操作命令,先登陸上去看了看配置,這不看不知道,一看嚇一跳。
老趙分給他的這臺服務器插了四張顯卡,清一色的3080ti,蘇飛查了下型號,這一張就得近萬,而作為核心與這四張顯卡協(xié)同運算的cpu那就更了不得了。
他不由得有些感嘆,老趙啊老趙,你年輕的時候是得多大牛,這都退居二線了,手里還富得流油。
蘇飛敢打包票,就這四張3080ti的配置,就能抵得上江大不少教授實驗室的資源了。
不過這四張卡有兩張已經(jīng)在運作了,估計是其他學生申請了學校的服務器,在跑實驗。
既然有了這種配置,蘇飛也算是有底氣了,他根據(jù)自己的模型單元構建起了一個模型結構,然后挑選了人工智能領域中非常典型及復雜的任務,機器翻譯。
其實就是語言翻譯,目前為止使用的各種翻譯軟件其核心技術就是基于機器翻譯。
這其實還是自然語言處理領域,但又不局限于自然語言處理,因為機器翻譯是公認的大數(shù)據(jù)訓練,其訓練的復雜度和圖領域不相上下,這也就代表著這個實驗任務能在很大程度上反應論文模型在人工智能領域的性能。
而蘇飛思前想后,決定采取現(xiàn)在國際上公認的兩個機器翻譯標準任務,將英語翻譯成德語以及法語的BLEU任務和WMT任務,這兩個翻譯任務是目前最有說服力的實驗,現(xiàn)在甚至有一個實時榜單專門對這兩個任務打榜,在人工智能領域幾乎無人不知無人不曉。
所以,蘇飛要在最有公信力的任務上下手,做到一擊斃命。
在他熬夜修仙兩天后,終于辛辛苦苦把自己的模型構建出來了,但應用到這倆任務上去時,他卻傻眼了。
“臥槽,這訓練一輪就得半小時?”
要知道,人工智能領域的訓練輪數(shù)都是1000次打底,像機器翻譯這種2000次都是常態(tài)的。
“這起碼得4、50天才能訓完啊……”
這簡直就離譜,一篇論文耗時最長的居然是任務訓練,而最為核心的模型構建只花了幾天時間。
而且,在訓練中途出了啥岔子,比如說有其他同學一不小心占用了他這張顯卡的計算資源,導致程序崩潰,他的模型數(shù)據(jù)一旦沒保存下來,那就得重新訓練。
還有一個很重要的問題是,萬一訓練出來的性能沒有想象中的好,蘇飛還得調(diào)節(jié)參數(shù),再訓練一次,這時間跨度就未免太長了。
蘇飛思考良久,只得又去找VX里的那個中年禿頭大叔。
【老趙,能不能再給我臺服務器?!?p> 【咋滴了,剛給你的那臺服務器出啥岔子了?】
【顯卡有些不夠用?!?p> 【要幾張顯卡?!?p> 蘇飛想要在一周左右訓練完,這么一算……
【8張3080ti?!?p> 那邊發(fā)來一個小企鵝頭掉了的表情包。
【你當我是提款童子?前天不剛讓你給我低調(diào)點?!】
【那6張也行?!?p> 兩三周以內(nèi)也能接受哇。
【還也行?滾!】
【老趙,你知不知道你現(xiàn)在冰冷的話語正扼殺一個跨時代的造物!】
蘇飛發(fā)了一張痛心疾首.jpg。
對面直接發(fā)了一張滾.jpg。
最終,二人溝通協(xié)商數(shù)次,老趙敲定了一個方案。
老趙會用管理員權限把所有其他賬號凍結一個月,只保留蘇飛的賬號,這樣給蘇飛的那臺服務器的四張顯卡就只能由蘇飛使用,也不需要擔心其他人一不小心占用了資源導致程序崩潰,因為壓根沒其他人了。
當然,想要使用這臺服務器的其他同學會被安排到其他服務器去,老趙順便會幫他們把數(shù)據(jù)也一起轉移過去。
這樣一來,蘇飛用四張卡同時訓練,十幾天應該就能搞定。
老趙,還是靠譜兒,蘇飛決定之后這篇論文發(fā)表成功,一定要好好報答報答老趙。
在得到老趙的全力支持后,蘇飛也是起飛了,把訓練程序往四張顯卡上一扔,他就完全撒手不管了。
有句話怎么說來著,要讓你的錢比你更努力地工作?
在深度學習領域,要讓的顯卡比你更努力地工作!
…
…
既然訓練程序的問題已經(jīng)解決了,蘇飛便直接開始動筆寫論文了。
雖然訓練結果還沒出來,但蘇飛相信這個模型的性能絕對不會差,到時候結果出來了直接把數(shù)據(jù)填上去,就能直接發(fā)表了。
什么?萬一性能很差?
這是看不起系統(tǒng)的靈感激發(fā)卡嗎?
狗系統(tǒng)雖然很狗,經(jīng)常發(fā)布一些奇奇怪怪的任務,但靈感激發(fā)卡的功效也是實打實的。
在撰寫論文題目的時候,蘇飛一字一頓地打上標題。
【注意力即所有(Attention is all you need)】
這種有些狂妄的論文標題很像是一些初出茅廬的小子,不知天高地厚而一時中二取的標題。
蘇飛的確是初出茅廬的小子,但他堅信,以注意力機制構建的模型單元擔得起這個論文題目。
【目前的主流模型結構都是基于復雜的循環(huán)神經(jīng)網(wǎng)絡或者卷積神經(jīng)網(wǎng)絡而構造的編碼器-解碼器架構。如果在編碼器-解碼器架構中再加一層注意力機制,那么這個模型的性能就會變得更好?!?p> 【但是,迄今為止從沒有人僅用注意力機制構建出一個編碼器-解碼器架構的模型。本文提出一個新的模型,其舍棄主流的模型架構,單純采用注意力機制,并引入多頭注意力機制與位置向量的概念解決目前注意力機制中的兩個難點,其具體的模型構造為……】
【……基于上述的理論,此模型并不局限于自然語言處理領域,其獨特的并行運算結構能適用于人工智能領域的任何問題,并且大大提升訓練速度,因此,本文將該模型命名為變壓器(Transformer)。】
這也算蘇飛的一個小趣味,Transformer在英文中不止是變壓器,更有變形金剛的意思,而這個模型的確就如同變形金剛一樣,非常靈活多變,能適應各種任務。
我愛西瓜書
感謝各位的支持呀! 求追讀、收藏和投資! 感謝炫懿磊大佬的打賞!