芝加哥奧黑爾國際機場,C18登機口。
候機大廳的落地窗外,巨大的波音747如同展翅的大鵬,正在緩緩滑向跑道。
程新竹抱着膝蓋坐在椅子上,眼睛瞪得像銅鈴,哪怕她平時是個只對生物大分子感興趣的醫學生,也知道Geoffrey Hinton這個名字在人工智能領域的份量。
“神經網絡教父,深度學習的執劍人....……”
程新竹像是在唸某種咒語,轉頭看向依然一臉平靜地在刷手機新聞的林允寧,“允寧,這就好比你是打籃球的,然後喬丹突然給你發私信說‘嘿,小夥子,晚上來我家後院單挑一把。你居然就只回了個‘收到?”
“不然呢?還要給他寫封感謝信?”
林允寧收起手機,順手把喝完的咖啡杯扔進垃圾桶,“辛頓教授確實是泰鬥,但他發這封郵件,說明他也嗅到了危機感。Aether的算法在某種程度上挑戰了他在多倫多大學建立的體系。這不僅僅是學術交流,更像是一場………………
踢館賽的邀請函。”
“踢館?”
程新竹興奮地搓了搓手,“那我豈不是要去見證歷史了?”
“只要你別在會上睡着就行。”
這時,一陣高跟鞋敲擊大理石地面的清脆聲音傳來。
方雪若手裏拿着三張新的登機牌,風風火火地走了過來。
她把那三張印着金色邊框的票據分別拍在林允寧和程新竹手裏。
“收拾東西,去休息室。”
雪若言簡意賅,“我把咱們的票升到了頭等艙。”
“啊?雪若姐,你前兩天不是還說咱們是初創公司,能省則省嘛?”
程新竹下意識地想替公司省錢。
“該省得省,該花的也得花。”
雪若打斷了她,理了理風衣的領口,“這次去ICML,我們要面對的是Google、微軟和斯坦福的精英。如果你們下了飛機一臉狼狽,那氣場上就先輸了一半。
“記住,我們現在不是隻有幾臺破電腦的創業公司了。我們是剛剛從輝瑞手裏賺了八百萬美金,準備去硅谷重新定義遊戲規則的獨角獸幼崽。要有身爲精英的自覺。”
林允寧看着手裏的頭等艙機票,笑了笑,拎起揹包:
“聽老闆的。”
波音747鑽入雲層,平穩地航行在三萬英尺的高空。
頭等艙寬大的座椅確實讓人放鬆。
程新竹已經戴着眼罩睡着了,雪若正在翻看手中的財報。
那是全球頂級的散熱材料供應商。
林允寧打開了筆記本電腦。
他沒有看電影,也沒有睡覺,而是調出了一篇Google研究院(Google Research)上週剛發表的論文:
《核方法在大規模數據集上的算力瓶頸與低秩近似》。
這篇論文像是一份判決書,直指當前所有注意力機制(Attention Mechanism)算法的死穴。
即使是他提出的“全注意力機制”,雖然在藥物分子這種短序列上表現完美,但只要序列長度一拉長,計算量就會呈指數級爆炸。
核心問題在於那個該死的 Softmax。
在計算注意力時,標準公式是:
Attention(Q,K,V)= Softmax(Q?K^T).V
必須要先算 Q和 K的轉置乘積。這會生成一個NXN的巨大矩陣。
如果N是1000(比如一段短文),矩陣就是100萬個元素,顯卡還能扛得住。
但如果是基因測序的長序列,可能是10萬,那就是100億個元素。現有的任何內存都會瞬間被撐爆。
這就是“算力的囚籠”。
在這個囚籠裏,他的算法處理不了長文本,也處理不了高分辨率圖像,註定只能是個玩具。
Google正是看準了這一點,纔敢斷言這個方向沒有前途。
林允寧閉上眼,靠在椅背上。
【模擬科研模式啓動。】
【注入模擬時長:200小時。】
機艙裏的嗡鳴聲瞬間消失。
林允寧的意識沉入了一片純白的數學空間。
在他的眼前,出現了一個巨大的矩陣。那是標準的Softmax Attention計算過程:
Attention(Q,K,V)= softmax(Q * K^T)* V
那個中間產生的(Q*K^T)矩陣,大得像是一堵牆,橫亙在算力的通道上。
它是一個 NXN的龐然大物。
【第20小時:你嘗試用稀疏矩陣來近似。失敗。稀疏化會丟失長距離的語義關聯,得不償失。】
【第60小時:你嘗試用低分解(Low-rank factorization)。效果一般,精度損失太大。】
【第120小時:你回到了矩陣乘法的最基本性質??結合律。】
(A * B)*C = A *(B * C)
這誰都知道。
但在注意力公式裏,那個非線性的 Softmax()函數像是一把鎖,鎖住了Q和K,讓你無法先把K和V乘起來。
“如果我把這把鎖換掉呢?”
林允寧的思維在這一刻跳出了深度學習的框架,回到了核方法(Kernel Method)的領域。
既然 Softmax是爲了歸一化和非線性映射,那爲什麼不用一個核函數 feature mapp()來代替它?
Sim(Q,K)=p(Q)*(K)^
一旦把非線性操作移到乘法之前,結合律就生效了!
原本的計算順序是:
(Q * K^T)* V
這是先算NXN的大矩陣,再乘V
現在的計算順序可以是:
Q *(K^T * V)
K^T是(dex N),V是(Nxd)。
它們乘起來,只是一個dxd的小矩陣!
d(特徵維度)通常只有64或128,遠小於序列長度 N。
【第180小時:推導完成。】
原本隨N增長而爆炸的計算牆,瞬間坍塌。
新的複雜度:O(N)。
從平方級降維到線性級。
林允寧猛地睜開眼。
他迅速從包裏掏出草稿紙,在那張印着美聯航Logo的餐巾紙背面,寫下了一行核心公式:
Linear_Attn =((Q)*(q(K)^T* V))/(Q(Q)*Σq(K)^T)
困擾了整個AI學界的大序列計算難題,被一個簡單的高中數學知識??結合律,給破解了。
當然,前提是找到那個合適的映射函數p()。
但對於現在的他來說,這只是個數學技巧問題。
“解決什麼了?這麼興奮?”
旁邊傳來方雪若的聲音。
她剛摘下眼鏡,手裏拿着一份厚厚的財報,封面上寫着“Indium Corporation”(銦泰公司)。
那是全球最大的散熱材料供應商。
“解決了一個能幫我們省下幾億美元電費的問題。”
林允寧心情大好,把那張寫着價值連城公式的餐巾紙摺好,放進口袋,“銦泰?那是做焊料和散熱材料的巨頭。你看他們的財報做什麼?”
“知己知彼。”
方雪若指了指報表上的一行數據,“銦泰正在大規模囤積稀有金屬,這說明他們在押注下一代散熱技術。我們的VO2熱二極管如果想賣個好價錢,得找對買家。
“對了,宋胤乾教授那邊有消息嗎?”
“剛收到郵件。”
林允寧揉了揉太陽穴,“第一批摻鎢的樣品已經在爐子裏了。宋老師按照我的Aether預測模型,調整了鎢原子的摻雜比例。目標是把相變溫度從68度壓到40度左右。”
“成功率有多少?”
“理論上是80%,但材料學是玄學。”
林允寧苦笑了一下,“實驗室燒出來是一回事,能不能量產是另一回事。如果成本降不下來,這東西就只能裝在布蘭登那臺金貴的iPhone上,賣不了幾億臺。”
“只要原理驗證機(Prototype)能做出來就行。”
方雪若眼神篤定,“只要你能拿出一個在那臺燙手的iPhone背面貼一下就能瞬間降溫的Demo,我就有辦法把蘋果的人拉上談判桌。現在的喬布斯,比任何人都需要這個故事來堵住用戶的嘴。”
飛機降落在波特蘭國際機場時,外面的天色已經暗了下來。
三人租了一輛黑色的雪佛蘭SUV,沿着I-5號州際公路一路向南,駛向俄勒岡州立大學的所在地??科瓦利斯。
不同於芝加哥的鋼鐵森林,這裏的道路兩旁全是鬱鬱蔥蔥的道格拉斯冷杉,空氣裏瀰漫着松脂和潮溼泥土的味道。
抵達會議酒店時,大堂裏已經人聲鼎沸。
這裏沒有西裝革履的金融精英,滿眼望去全是穿着格子襯衫、Polo衫和卡其褲的程序員和學者。
每個人胸前都掛着橙色的ICML胸牌,手裏大多端着筆記本電腦,三五成羣地討論着核函數,貝葉斯優化和支持向量機。
“我去辦簽到。”
方雪若踩着高跟鞋走向前臺,那種自帶的氣場讓擁擠的人羣自動讓開了一條路。
林允寧和程新竹站在一旁的展板前,看着明天的會議議程。
“嘿,你是那個寫《Attention Is All You Need》的小夥子嗎?”
一個略帶沙啞的聲音從側面傳來。
林允寧轉過身。
說話的是一個四十多歲的中年白人,髮際線很高,戴着一副無框眼鏡,胸前掛着的工牌上印着那個色彩斑斕的“Google(谷歌)”標誌。
在那名字上方,印着他的頭銜:Dr. Weiss, Technical Director (技術總監)。
“是我。”
林允寧點點頭,掃了一眼對方的工牌。
魏斯(Weiss)博士。
林允寧在很多經典的統計學習論文裏見過這個名字。
他是谷歌搜索算法團隊的核心人物,也是堅定的“舊派”代表??信奉嚴謹的統計模型,瞧不起那種不可解釋的神經網絡“黑箱”。
“我看過你的預印本。”
魏斯手裏端着一杯紅酒,嘴角帶着那種大廠高管特有的,居高臨下的微笑,“不得不說,把拓撲學引入神經網絡是個很性感的想法。數學很漂亮,真的。”
“謝謝。”
林允寧禮貌地回應,不卑不亢。
“但是,”
魏斯話鋒一轉,輕輕搖晃着酒杯,“年輕人,在工業界,漂亮是沒用的。你那個算法的核心是個O(N^2)的矩陣乘法。你知道這意味着什麼嗎?”
他往前湊了一步,壓低聲音,像是在教導一個不懂事的實習生:
“這意味着在Google的數據中心裏,它就是個因爲內存溢出而被Kill掉的進程。處理不了長序列,它就永遠只能是個在Arxiv上騙騙引用的玩具。O(N^2),在工業界就是死刑。”
旁邊的程新竹臉一下子漲紅了。
她剛想開口反駁,說我們在藥物篩選上已經驗證了它的價值,卻被一隻手攔住了。
雪若辦完手續回來,正好聽到了最後一句。
她臉上掛上了標準的職業假笑,剛準備用那種圓滑的商務辭令把場面圓過去。
“魏斯博士。”
林允寧上前一步,率先開口。
他並沒有生氣,甚至臉上的表情都沒有一絲波動。
他只是抬起手,慢條斯理地整理了一下衣領??那是雪若送他的那條真絲領帶。
“如果我沒記錯,Google現在的搜索排序算法,在處理長尾查詢時,依然還在用十年前的倒排索引邏輯吧?”
林允寧看着魏斯的眼睛,語氣平淡得像是在討論晚飯喫什麼:
“所謂的死刑,有時候只是因爲你們手裏的算盤太舊了。”
周圍原本在閒聊的幾個學者聽到了這邊的動靜,紛紛停下交談,投來好奇的目光。
魏斯的臉色沉了下來:“你在教Google怎麼做搜索?”
“不,我是在邀請你看一場魔術。”
林允寧從口袋裏掏出那張手寫的餐巾紙,又塞了回去,只露出一角。
“明天上午十點,C廳,是我的報告。”
他看着魏斯,嘴角終於露出了一絲鋒利的笑意:
“與其在這裏討論複雜度,不如到時候帶上你的筆記本電腦,見識一下來自新時代的算法。”
說完,他沒再看那位臉色鐵青的技術總監一眼,轉身對看呆了的程新竹和方雪若招了招手。
“走了,去喫飯,剛纔在飛機上推導公式,我肚子都餓了。”