返回

第234章 恆等映射(求訂閱求月票)

首頁
關燈 護眼 字體:
書架 上一章 目錄 下一章

十二月的溫哥華,空氣溼潤而凜冽。

灰藍色的海灣倒映着北岸山脈的積雪,海鷗在溫哥華會議中心的巨型玻璃幕牆外盤旋。

NIPS 2007(神經信息處理系統大會)的註冊大廳裏,人聲鼎沸。

林允寧剛領完胸牌,還沒來得及把那個略顯廉價的掛繩套在脖子上,就被一羣年輕的面孔圍住了。

“林-God!能不能籤個名?”

一個戴着厚底眼鏡的男生激動地遞過來打印好的論文,封面上赫然印着《Linear Attention Mechanism》 (線性注意力機制)。

“我是伯克利的一年級博士生。您的這個算法簡直是救命稻草!我們在做長序列基因預測,之前跑一次模型要一週,用了您的技巧優化後,現在只要半天!”

“林先生,關於您那篇暗流體的論文,我在物理系的室友說您重新定義了真空?”

"**......"

林允寧熟練地接過馬克筆,在那篇論文的空白處簽下了名字。

這一年來的歷練,讓他對這種場面已經習以爲常。

他不像是來參會的學生,更像是走紅毯的明星。

“看來我們的‘物理學家’人氣很高啊。”

一個帶着英倫腔調的聲音從側方傳來。

人羣自動分開一條路。

傑弗裏?辛頓(Geoffrey Hinton)穿着一件看着有些年頭的粗花呢西裝,正笑眯眯地看着他。

站在辛頓旁邊的,是穿着格子襯衫、揹着雙肩包的Google工程戰神傑夫?迪恩(Jeff Dean)。

“辛頓教授,迪恩博士。”

林允寧蓋上筆帽,微笑着走過去握手,“ICML一別,好久不見。”

“確實好久不見。”

傑夫?迪恩的眼神依然熱切,像是在看一塊未被開採的金礦,“聽說你最近在數學界和物理界鬧出的動靜很大?陶哲軒都在給我發郵件誇你。怎麼樣,有沒有興趣來Google Brain給我們講講那個‘復配邊算子?順便聊聊入職的

事?”

“傑夫,你就別費心了。”

辛頓打斷了迪恩的挖角,“林這種人,註定是要自己定義問題的,而不是去解決別人定義的問題。不過,林,我很期待你今天的Keynote。聽說你要從幾何流的角度講優化?”

“我確實有一點不成熟的想法。”

林允寧謙虛了一句,“希望能給在這個寒冬裏堅持神經網絡的人,一點信心。”

周圍的參會者們看着這三個大佬級別的任務談笑風生,眼神裏充滿了敬畏。

在2007年,這三個人站在一起,基本上就代表了人工智能的一半未來。

只是,其中有個人實在年輕的有點過分。

上午十點,主會場。

巨大的投影幕布上,顯示着Keynote的標題:

《從幾何流看神經網絡的優化景觀》。

演講很成功。

林允寧的講座深入淺出,沒有用枯燥的代碼,而是用物理直覺,將神經網絡的參數空間比作一個高維的能量地形圖,闡述了爲什麼傳統的梯度下降法容易陷入局部極小值。

到了提問環節。

一位來自麻省理工學院(MIT)的老教授站了起來,扶了扶話筒

“林先生,你的幾何比喻很精彩。但是,深層網絡的優化曲面是非凸的(Non-convex),存在大量的鞍點(Saddle Points)。在數學上,這些點會導致海森矩陣(Hessian Matrix)出現負特徵值,從而阻礙收斂。你是

如何看待這個問題的?”

這是一個非常硬核的數學問題。

全場安靜下來,等待着林允寧的回答。

“這是一個非常好的幾何問題。”

林允寧眼睛亮了。

他指了指臺邊的黑板,“能幫我推過來嗎?”

工作人員迅速將黑板推到舞臺中央。

林允寧拿起粉筆,轉身面對黑板。

“其實,如果我們跳出歐幾里得空間的限制,把參數空間看作一個黎曼流形......”

噠噠噠。

粉筆在黑板上敲擊出清脆的節奏。

第一行,他寫下了海森矩陣的本徵值分解公式。

臺下的觀衆頻頻點頭,來到這裏的雖然大部分是計算機科學家,但數學水平並不低。

他們對於這些基礎的代數問題,還是理解得很深入的。

第二行,林允寧開始引入莫爾斯理論(Morse Theory),用臨界點的指數來描述鞍點的性質。

臺下有一半人開始皺眉,拿筆的手停住了。

“進一步,如果我們考慮梯度流在這個流形上的測地線偏離方程(Geodesic Deviation Equation) ......”

從第三行開始,林允寧直接祭出了他在和陶哲軒討論時用到的“同調羣”(Homology Group)演化方程,開始證明在高維空間中,鞍點其實是逃逸路徑的“路標”,而非陷阱。

臺下徹底安靜了。

那是一種死一般的寂靜。

剛纔還在點頭的計算機科學家們,現在的表情就像是誤入了高等數學專業課的大一新生。

他們的眼神從迷茫,變成了呆滯,最後變成了放棄思考的釋然。

只剩下此起彼伏的相機快門聲????

雖然聽不懂,但這公式看着就很厲害,先拍下來再說。

林允寧寫得興起,手中的粉筆折斷了一截。

他回過頭,正準備解釋一下貝蒂數的物理意義,卻看到了臺下幾千雙迷茫的眼睛。

甚至連前排的傑夫?迪恩都在揉太陽穴。

"Be......"

林允寧愣了一下,瞬間反應過來。

這是AI大會,不是數學家大會。

他剛纔那套連陶哲軒都要思考幾分鐘的推導,對這幫搞工程的人來說,簡直就是天書。

這就是所謂的降維打擊一

一不小心打得太狠,以此至於觀衆連痛感都沒反應過來。

“咳。”

林允寧淡定地把剩下的半截粉筆扔進筆槽,拍了拍手上的灰,指着黑板上那堆如同鬼畫符般的公式:

“簡而言之,只要路徑選得對,鞍點不是障礙,是跳板。”

臺下沉默了一秒。

"14"

雷鳴般的掌聲爆發了。

大家其實還是沒聽懂,但這不妨礙他們對這種智力上的絕對高點表示敬意。

午飯時間,海報展區(Poster Session)。

相比於主會場的熱鬧,這裏的角落顯得有些冷清。

2007年的計算機視覺(CV)領域,還是SVM(支持向量機)和人工特徵提取(SIFT/HOG)的天下。

在一個不起眼的角落裏,林允寧看到了一個略顯落寞的身影。

那是一位有些瘦削的亞裔女性,正獨自站在一張海報前。

海報的標題是《ImageNet: A Large-Scale Hierarchical Image Database》。

李飛飛。

未來的AI教母,此刻正面臨着職業生涯最大的至暗時刻。

她的ImageNet項目因爲耗資巨大,且尚未產出任何能用的成果,被學術界視爲“浪費資源的苦力活”。

在主流觀點看來,算法纔是關鍵,數據夠用就行。

搞這麼大的數據集,現有的算法根本跑不動,毫無意義。

路過的人大多隻是瞥一眼海報上那個誇張的數據量??“一千萬張圖片”,然後就搖搖頭走開了。

林允寧整理了一下雪若送的那套高級西裝,走了過去。

“李教授,好久不見。”

李飛飛抬起頭,看到是林允寧,眼神中閃過一絲驚訝。

兩人曾在ICML的閉門會議中有過一面之緣,但並未深交。

她沒想到,這位剛剛在主會場享受完掌聲的當紅炸子雞,會跑到這個冷清的角落來。

“林先生。”

李飛飛禮貌地笑了笑,笑容裏帶着一絲疲憊,“剛纔的演講很精彩。雖然我也沒完全聽懂那個同調羣。

“數學只是工具。”

林允寧站在海報前,認真地看着上面的架構圖,“我在意的是地基。我瞭解過你的ImageNet項目,請問現在的進展如何?”

“不太好。”

李飛飛是個很坦誠的人,她苦笑了一聲,“我們僱傭了來自167個國家的近5萬名亞馬遜Mechanical Turk工人來打標籤。數據量是上來了,但是......誤差率居高不下。

“現有的SVM和淺層神經網絡,在這麼大的數據量面前,就像是小馬拉大車,根本跑不動。

“沒想到你對這個感興趣,現在大家都在討論你的幾何流和核方法,沒人關心數據。他們覺得只要算法足夠精妙,小樣本也能學出花來。

“大家都說我在做無用功,說與其花錢搞數據,不如多優化一下算子。”

“那是他們錯了。”

林允寧轉過頭,看着李飛飛的眼睛,語氣出人意料地篤定,“數據是新時代的石油。在這個算力即將爆炸的前夜,誰掌握了最大的數據集,誰就掌握了定義下一代智能的權力。

“李教授,你現在的問題不是石油太多,而是提煉石油的引擎??也就是神經網絡的架構,還不夠強,我說的對麼?”

李飛飛愣了一下。

她沒想到這個搞理論物理出身的天才,竟然比很多計算機同行更懂數據的價值。

“你說得對。”

這位普林斯頓的助理教授嘆了口氣,“這也是我最頭疼的。數據量上去了,可是模型跟不上。無論是SVM還是淺層神經網絡,一旦喂進去海量數據,誤差率不僅不降,反而居高不下。我在想是不是哪裏出了問題。”

“找個地方聊聊?”

林允寧指了指旁邊的咖啡座,“我最近有些新想法,也許你會感興趣。”

咖啡座裏,人聲嘈雜。

兩人找了個角落坐下。

“現在的網絡有個悖論。”

李飛飛拿出一張圖表,上面畫着兩條曲線,“理論上,網絡層數越深,表達能力越強。但實際上,當我們把層數從20層增加到50層時,訓練誤差反而變大了。這不科學,這叫‘退化問題”(Degradation Problem)。”

“因爲信息在傳遞過程中失真了,我最近有一個新的想法,我稱之爲“殘差神經網絡’,正好想聽聽你的意見。”

林允寧手指輕輕敲擊着桌面,淡淡說道。

他沒帶電腦,於是隨手從桌上的紙巾盒裏抽出一張餐巾紙,掏出隨身帶的圓珠筆,在紙上畫了一個示意圖:

“李教授,想象一下傳話遊戲。如果你想把一句話傳給第100個人,中間每過一個人,信息就會因爲‘非線性”的理解而扭曲一點。到了最後,話全變了。”

他在紙上畫了一個方框,代表卷積層。

“現在的做法是強迫網絡去學習從X到Y的完整映射F(x)。這很難。”

林允寧在方框旁邊,畫了一條彎曲的弧線,直接把輸入X連到了輸出端。

在那條弧線上,他重重地畫了一個加號:+。

H(x)=F(x)+ X

“我們給它修一條直通車'。”

林允寧指着那個簡單的公式,“這就是‘殘差塊’(Residual Block)。

“我們不再讓網絡去學習完整的輸出H(x),而是讓它只學習“變化量’????也就是殘差F(x)=(x)- x。

“如果這一層不需要做什麼改變,網絡只需要把F(x)置爲0,那麼輸出就自動等於輸入x(恆等映射)。

“這樣一來,梯度就可以順着這條高速公路,毫無損耗地傳回前面的層。別說50層,就是100層、1000層,也能訓練。”

李飛飛盯着那張餐巾紙。

那個結構簡單得像是一個大一學生的作業。

但正是這種極致的簡潔,讓她感到一陣頭皮發麻。

困擾了AI界幾十年的深度瓶頸,竟然被一條簡單的“跳線”給破解了?

“這......這太天才了!”

李飛飛猛地抬起頭,眼神裏全是震撼, "Identity Mapping......恆等映射!就這麼簡單?爲什麼沒人想到?”

“因爲大家都在想怎麼把網絡變得更復雜,卻忘了有時候什麼都不做’也是一種智慧。”

林允寧笑了笑。

“但是......”

李飛飛忽然想到了什麼,眼神中的興奮稍稍褪去,“算力......普林斯頓的經費有限,訓練這種深層網絡需要的GPU算力是天文數字。我現在連ImageNet的存儲服務器費用都快付不起了。”

2007年,NVIDIA剛剛發佈第一代Tesla C870計算卡,CUDA生態還是一片荒蕪。

訓練一個幾十層的網絡,簡直是在往無底洞裏面扔錢。

“算力不是問題。”

林允寧等的就是李飛飛這句話。

他靠在椅背上,端起咖啡抿了一口,露出了商人的微笑。

他語氣輕鬆,彷彿他背後站着整個谷歌的數據中心,“以太動力雖然是家小公司,但在高性能計算上的投入從不吝嗇。

“李教授,我們做個交易吧。

“以太動力可以爲你提供基於‘殘差網絡’(ResNet)的全套算法支持,並且在不遠的未來,在我們的服務器上幫你訓練第一版ImageNet分類模型。”

李飛飛震驚地看着這個年輕人。

她知道以太動力剛賺了輝瑞的錢,但沒想到他們竟然富到可以燒錢訓練大模型。

“條件呢?”她問道。

李飛飛是聰明人,知道天下沒有免費的午餐。

“我要ImageNet完整數據集的永久商業使用權。”

林允寧圖窮匕見,聲音不大,卻透着不容置疑的堅決,“以及未來所有版本更新和衍生數據的優先共享權。”

李飛飛愣住了。

她原本以爲林允寧會要論文署名,或者是專利共享。

沒想到他要的竟然是......數據?

那個現在被所有人嫌棄,卻又大得嚇人的數據集?

“就這些?”

李飛飛有些不敢相信,“你確定?這些圖片現在除了佔硬盤,還沒人知道怎麼用它們賺錢。”

“我很確定。”

林允寧笑了。

沒人比他更清楚,再過幾年,這堆“佔硬盤的圖片”,將成爲點燃深度學習大爆炸的燃料。

那是AGI(通用人工智能時代的入場券。

雖然訓練這個ResNet可能會燒掉他賬上剛趴熱乎的幾百萬美金,甚至可能會被雪若罵得狗血淋頭。

但這筆買賣,太值了。

“成交。”

李飛飛伸出手,眼中滿是感激,“林,謝謝你。你不僅救了ImageNet,你可能救了整個深度學習。”

深夜,溫哥華費爾蒙酒店。

窗外的雨又開始下了,淅淅瀝瀝地敲打着玻璃。

林允寧回到房間,把那張畫着ResNet草圖的餐巾紙夾進了筆記本裏。

雖然剛剛在咖啡館裏表現得豪氣干雲,但他心裏清楚,回去之後怎麼跟方雪若解釋這筆鉅額算力開銷,是個大問題。

“算了,那是明天的事。”

他打開電腦,準備查看一下郵件。

屏幕右下角,一個紅色的加密郵件圖標正在閃爍。

發件人:趙振華。

林允寧神色一凜,迅速點開。

沒有寒暄,直接是乾貨。

【允寧:

首先恭喜你最近發表的有關“暗流體”和“復規範流”的轟動性論文,相當了不起的工作!

回到我們的課題。

好消息是:經過兩個月的調試,中科院物理所的極端條件實驗室,已經成功合成了純度極高的魔角石墨烯樣品。那個1.1度的魔角,我們卡準了。

低溫稀釋製冷機已經降到了10mK,超導磁體也就位了。槍已上膛。

但壞消息是:相圖太複雜了。

在電壓、磁場、溫度構成的多維參數空間裏,那個超導態就像是大海裏的一根針。我們試着掃了幾個點,全是絕緣態。

如果不確定具體的參數範圍,盲目搜索無異於大海撈針。

我們也在調集人手開展理論計算,但你也知道,‘自旋漲落’並不是主攻方向,所以人手不足。

而馮教授那邊在用傳統的電聲耦合模型做計算,如你所料,收斂很慢。

我們需要你的加入,想辦法告訴我們,那個自旋漲落”的超導態,到底藏在相圖的哪個座標點?】

郵件的最後,是一張空白的相圖座標紙,等待着被填滿。

林允寧看完郵件,關掉了那個關於ResNet的文檔。

AI的熱鬧已經留在了會場裏。

現在,面對着這封來自大洋彼岸的郵件,他彷彿聞到了低溫實驗的冷冽氣息。

“迷霧嗎?”

林允寧看着那張空白的圖紙,手指輕輕敲擊着鍵盤,眼中閃爍着比屏幕更亮的光芒。

“那就讓我來畫這張地圖。

上一章 目錄 下一章 存書籤
熱門推薦
我被系統託管了
華娛:從2009到影視寒冬
裂心
我娘四嫁
雷罰
從口水歌開始
絕品天師
佛本是道
近身保鏢
屠龍倚天前傳
晚來天欲雪
太荒吞天訣
都市無敵戰神
大冒險給前任發消息後