返回

第200章 O(N)的魔法與傲慢的谷歌(求訂閱求月票)

首頁
關燈 護眼 字體:
書架 上一章 目錄 下一章

芝加哥奧黑爾國際機場,C18登機口。

候機大廳的落地窗外,巨大的波音747如同展翅的大鵬,正在緩緩滑向跑道。

程新竹抱着膝蓋坐在椅子上,眼睛瞪得像銅鈴,哪怕她平時是個只對生物大分子感興趣的醫學生,也知道Geoffrey Hinton這個名字在人工智能領域的份量。

“神經網絡教父,深度學習的執劍人....……”

程新竹像是在唸某種咒語,轉頭看向依然一臉平靜地在刷手機新聞的林允寧,“允寧,這就好比你是打籃球的,然後喬丹突然給你發私信說‘嘿,小夥子,晚上來我家後院單挑一把。你居然就只回了個‘收到?”

“不然呢?還要給他寫封感謝信?”

林允寧收起手機,順手把喝完的咖啡杯扔進垃圾桶,“辛頓教授確實是泰鬥,但他發這封郵件,說明他也嗅到了危機感。Aether的算法在某種程度上挑戰了他在多倫多大學建立的體系。這不僅僅是學術交流,更像是一場………………

踢館賽的邀請函。”

“踢館?”

程新竹興奮地搓了搓手,“那我豈不是要去見證歷史了?”

“只要你別在會上睡着就行。”

這時,一陣高跟鞋敲擊大理石地面的清脆聲音傳來。

方雪若手裏拿着三張新的登機牌,風風火火地走了過來。

她把那三張印着金色邊框的票據分別拍在林允寧和程新竹手裏。

“收拾東西,去休息室。”

雪若言簡意賅,“我把咱們的票升到了頭等艙。”

“啊?雪若姐,你前兩天不是還說咱們是初創公司,能省則省嘛?”

程新竹下意識地想替公司省錢。

“該省得省,該花的也得花。”

雪若打斷了她,理了理風衣的領口,“這次去ICML,我們要面對的是Google、微軟和斯坦福的精英。如果你們下了飛機一臉狼狽,那氣場上就先輸了一半。

“記住,我們現在不是隻有幾臺破電腦的創業公司了。我們是剛剛從輝瑞手裏賺了八百萬美金,準備去硅谷重新定義遊戲規則的獨角獸幼崽。要有身爲精英的自覺。”

林允寧看着手裏的頭等艙機票,笑了笑,拎起揹包:

“聽老闆的。”

波音747鑽入雲層,平穩地航行在三萬英尺的高空。

頭等艙寬大的座椅確實讓人放鬆。

程新竹已經戴着眼罩睡着了,雪若正在翻看手中的財報。

那是全球頂級的散熱材料供應商。

林允寧打開了筆記本電腦。

他沒有看電影,也沒有睡覺,而是調出了一篇Google研究院(Google Research)上週剛發表的論文:

《核方法在大規模數據集上的算力瓶頸與低秩近似》。

這篇論文像是一份判決書,直指當前所有注意力機制(Attention Mechanism)算法的死穴。

即使是他提出的“全注意力機制”,雖然在藥物分子這種短序列上表現完美,但只要序列長度一拉長,計算量就會呈指數級爆炸。

核心問題在於那個該死的 Softmax。

在計算注意力時,標準公式是:

Attention(Q,K,V)= Softmax(Q?K^T).V

必須要先算 Q和 K的轉置乘積。這會生成一個NXN的巨大矩陣。

如果N是1000(比如一段短文),矩陣就是100萬個元素,顯卡還能扛得住。

但如果是基因測序的長序列,可能是10萬,那就是100億個元素。現有的任何內存都會瞬間被撐爆。

這就是“算力的囚籠”。

在這個囚籠裏,他的算法處理不了長文本,也處理不了高分辨率圖像,註定只能是個玩具。

Google正是看準了這一點,纔敢斷言這個方向沒有前途。

林允寧閉上眼,靠在椅背上。

【模擬科研模式啓動。】

【注入模擬時長:200小時。】

機艙裏的嗡鳴聲瞬間消失。

林允寧的意識沉入了一片純白的數學空間。

在他的眼前,出現了一個巨大的矩陣。那是標準的Softmax Attention計算過程:

Attention(Q,K,V)= softmax(Q * K^T)* V

那個中間產生的(Q*K^T)矩陣,大得像是一堵牆,橫亙在算力的通道上。

它是一個 NXN的龐然大物。

【第20小時:你嘗試用稀疏矩陣來近似。失敗。稀疏化會丟失長距離的語義關聯,得不償失。】

【第60小時:你嘗試用低分解(Low-rank factorization)。效果一般,精度損失太大。】

【第120小時:你回到了矩陣乘法的最基本性質??結合律。】

(A * B)*C = A *(B * C)

這誰都知道。

但在注意力公式裏,那個非線性的 Softmax()函數像是一把鎖,鎖住了Q和K,讓你無法先把K和V乘起來。

“如果我把這把鎖換掉呢?”

林允寧的思維在這一刻跳出了深度學習的框架,回到了核方法(Kernel Method)的領域。

既然 Softmax是爲了歸一化和非線性映射,那爲什麼不用一個核函數 feature mapp()來代替它?

Sim(Q,K)=p(Q)*(K)^

一旦把非線性操作移到乘法之前,結合律就生效了!

原本的計算順序是:

(Q * K^T)* V

這是先算NXN的大矩陣,再乘V

現在的計算順序可以是:

Q *(K^T * V)

K^T是(dex N),V是(Nxd)。

它們乘起來,只是一個dxd的小矩陣!

d(特徵維度)通常只有64或128,遠小於序列長度 N。

【第180小時:推導完成。】

原本隨N增長而爆炸的計算牆,瞬間坍塌。

新的複雜度:O(N)。

從平方級降維到線性級。

林允寧猛地睜開眼。

他迅速從包裏掏出草稿紙,在那張印着美聯航Logo的餐巾紙背面,寫下了一行核心公式:

Linear_Attn =((Q)*(q(K)^T* V))/(Q(Q)*Σq(K)^T)

困擾了整個AI學界的大序列計算難題,被一個簡單的高中數學知識??結合律,給破解了。

當然,前提是找到那個合適的映射函數p()。

但對於現在的他來說,這只是個數學技巧問題。

“解決什麼了?這麼興奮?”

旁邊傳來方雪若的聲音。

她剛摘下眼鏡,手裏拿着一份厚厚的財報,封面上寫着“Indium Corporation”(銦泰公司)。

那是全球最大的散熱材料供應商。

“解決了一個能幫我們省下幾億美元電費的問題。”

林允寧心情大好,把那張寫着價值連城公式的餐巾紙摺好,放進口袋,“銦泰?那是做焊料和散熱材料的巨頭。你看他們的財報做什麼?”

“知己知彼。”

方雪若指了指報表上的一行數據,“銦泰正在大規模囤積稀有金屬,這說明他們在押注下一代散熱技術。我們的VO2熱二極管如果想賣個好價錢,得找對買家。

“對了,宋胤乾教授那邊有消息嗎?”

“剛收到郵件。”

林允寧揉了揉太陽穴,“第一批摻鎢的樣品已經在爐子裏了。宋老師按照我的Aether預測模型,調整了鎢原子的摻雜比例。目標是把相變溫度從68度壓到40度左右。”

“成功率有多少?”

“理論上是80%,但材料學是玄學。”

林允寧苦笑了一下,“實驗室燒出來是一回事,能不能量產是另一回事。如果成本降不下來,這東西就只能裝在布蘭登那臺金貴的iPhone上,賣不了幾億臺。”

“只要原理驗證機(Prototype)能做出來就行。”

方雪若眼神篤定,“只要你能拿出一個在那臺燙手的iPhone背面貼一下就能瞬間降溫的Demo,我就有辦法把蘋果的人拉上談判桌。現在的喬布斯,比任何人都需要這個故事來堵住用戶的嘴。”

飛機降落在波特蘭國際機場時,外面的天色已經暗了下來。

三人租了一輛黑色的雪佛蘭SUV,沿着I-5號州際公路一路向南,駛向俄勒岡州立大學的所在地??科瓦利斯。

不同於芝加哥的鋼鐵森林,這裏的道路兩旁全是鬱鬱蔥蔥的道格拉斯冷杉,空氣裏瀰漫着松脂和潮溼泥土的味道。

抵達會議酒店時,大堂裏已經人聲鼎沸。

這裏沒有西裝革履的金融精英,滿眼望去全是穿着格子襯衫、Polo衫和卡其褲的程序員和學者。

每個人胸前都掛着橙色的ICML胸牌,手裏大多端着筆記本電腦,三五成羣地討論着核函數,貝葉斯優化和支持向量機。

“我去辦簽到。”

方雪若踩着高跟鞋走向前臺,那種自帶的氣場讓擁擠的人羣自動讓開了一條路。

林允寧和程新竹站在一旁的展板前,看着明天的會議議程。

“嘿,你是那個寫《Attention Is All You Need》的小夥子嗎?”

一個略帶沙啞的聲音從側面傳來。

林允寧轉過身。

說話的是一個四十多歲的中年白人,髮際線很高,戴着一副無框眼鏡,胸前掛着的工牌上印着那個色彩斑斕的“Google(谷歌)”標誌。

在那名字上方,印着他的頭銜:Dr. Weiss, Technical Director (技術總監)。

“是我。”

林允寧點點頭,掃了一眼對方的工牌。

魏斯(Weiss)博士。

林允寧在很多經典的統計學習論文裏見過這個名字。

他是谷歌搜索算法團隊的核心人物,也是堅定的“舊派”代表??信奉嚴謹的統計模型,瞧不起那種不可解釋的神經網絡“黑箱”。

“我看過你的預印本。”

魏斯手裏端着一杯紅酒,嘴角帶着那種大廠高管特有的,居高臨下的微笑,“不得不說,把拓撲學引入神經網絡是個很性感的想法。數學很漂亮,真的。”

“謝謝。”

林允寧禮貌地回應,不卑不亢。

“但是,”

魏斯話鋒一轉,輕輕搖晃着酒杯,“年輕人,在工業界,漂亮是沒用的。你那個算法的核心是個O(N^2)的矩陣乘法。你知道這意味着什麼嗎?”

他往前湊了一步,壓低聲音,像是在教導一個不懂事的實習生:

“這意味着在Google的數據中心裏,它就是個因爲內存溢出而被Kill掉的進程。處理不了長序列,它就永遠只能是個在Arxiv上騙騙引用的玩具。O(N^2),在工業界就是死刑。”

旁邊的程新竹臉一下子漲紅了。

她剛想開口反駁,說我們在藥物篩選上已經驗證了它的價值,卻被一隻手攔住了。

雪若辦完手續回來,正好聽到了最後一句。

她臉上掛上了標準的職業假笑,剛準備用那種圓滑的商務辭令把場面圓過去。

“魏斯博士。”

林允寧上前一步,率先開口。

他並沒有生氣,甚至臉上的表情都沒有一絲波動。

他只是抬起手,慢條斯理地整理了一下衣領??那是雪若送他的那條真絲領帶。

“如果我沒記錯,Google現在的搜索排序算法,在處理長尾查詢時,依然還在用十年前的倒排索引邏輯吧?”

林允寧看着魏斯的眼睛,語氣平淡得像是在討論晚飯喫什麼:

“所謂的死刑,有時候只是因爲你們手裏的算盤太舊了。”

周圍原本在閒聊的幾個學者聽到了這邊的動靜,紛紛停下交談,投來好奇的目光。

魏斯的臉色沉了下來:“你在教Google怎麼做搜索?”

“不,我是在邀請你看一場魔術。”

林允寧從口袋裏掏出那張手寫的餐巾紙,又塞了回去,只露出一角。

“明天上午十點,C廳,是我的報告。”

他看着魏斯,嘴角終於露出了一絲鋒利的笑意:

“與其在這裏討論複雜度,不如到時候帶上你的筆記本電腦,見識一下來自新時代的算法。”

說完,他沒再看那位臉色鐵青的技術總監一眼,轉身對看呆了的程新竹和方雪若招了招手。

“走了,去喫飯,剛纔在飛機上推導公式,我肚子都餓了。”

上一章 目錄 下一章 存書籤
熱門推薦
史上第一寵婚
黑狼
結緣
愛情交響曲
欲血沸騰
霸王硬上弓
年代文絕色女配會幸福[快穿]
八道橫行
農商
白手起家,蝙蝠俠幹碎我的致富夢
崩壞火影:帶土,琳是這樣用的
奇能異選
在第四天災中倖存
人類最後的299天