新智元報道
編輯:KingHZ
(資料圖片)
【新智元導讀】Transformer曾是AI革命的巔峰之作,但其發(fā)明者Llion Jones警告:它并非終點。就像RNN被取代一樣,當前無數微調研究可能只是局部優(yōu)化,而真正的AGI突破或藏在生物啟發(fā)的全新架構中。
Transformer是AI的終點嗎?
不是,絕對不是。
那Scaling是唯一通向AGI的路徑嗎?
在Transformer架構上研究最久的人,告訴你:不是。
Sakana AI的創(chuàng)始人、研究科學家Llion Jones,和其他7位合著者,一起發(fā)明了Transformer。
除了那七位共同作者,沒有人比他在Transformer上的研究更久。
盡管如此,去年,他做出了一個重要決定:大幅減少自己在Transformer上的研究投入。
不是因為這個領域沒有新鮮事,而是因為它已經被擠得水泄不通。
他直言,他成了自己成功的受害者:
我不認為Transformer就是終點,也不相信我們只需要繼續(xù)無限擴大規(guī)模。
某一天,我們會再次迎來突破,然后回頭發(fā)現(xiàn),現(xiàn)在很多研究其實在白白浪費時間。
Transformer或重演RNN的悲劇
在Transformer出現(xiàn)之前,RNN是主流。
RNN的確是AI歷史上的重大突破。
突然間,所有人都開始致力于改進RNN。
但結果總是對同一架構做些微調,比如把門控單元換個位置,將語言建模的性能提升到 1.26、1.25 比特每字符。
在Transformer出現(xiàn)后,當我們把非常深的僅解碼器Transformer應用于同一任務時,立刻就達到了1.1 比特/字符。
于是,所有關于RNN的研究突然之間顯得白費了。
而現(xiàn)在的論文,似乎又回到了老路子:在同一個架構上,做無數微小的改動——比如調整normalization層的位置,或略微改良訓練方式。
2020年,時任谷歌DeepMind的研究員Sarah Hooker提出了「硬件彩票」:
通往AGI的道路不止一條, 深度神經網絡剛好碰上了GPU這樣的硬件彩票。
論文鏈接:https://hardwarelottery.github.io/
「硬件彩票」這一術語,描述了某種研究思路之所以勝出,是因為它恰好契合現(xiàn)有的軟件和硬件條件,而非因為該思路在所有備選研究方向中具有普遍優(yōu)越性。
而Llion Jones則認為,Transformer是一種架構彩票,而業(yè)界恐怕重蹈RNN的覆轍。
哪怕已經有一些架構在論文中表現(xiàn)得比Transformer還好。但問題在于,新架構還不足夠好到讓整個行業(yè)放棄Transformer。
原因很現(xiàn)實:大家對Transformer的理解已經非常成熟,訓練方法、微調方式、配套軟件工具一應俱全。
你要大家從頭換一套,除非新架構好到「碾壓式勝出」,否則不可能。
Transformer取代RNN,是因為差距大到無法忽視。
深度學習的興起也是一樣。曾經大家還相信符號主義更靠譜,直到神經網絡在圖像識別上展現(xiàn)出壓倒性的優(yōu)勢。
Llion Jones認為Transformer太成功了,反而讓大家陷入了「陷阱」:
這就像有個巨大的「重力井」,所有嘗試離開的新方法都會被拉回來。
哪怕你真的做出了一個效果更好的新架構,只要OpenAI再把Transformer擴大十倍,那你的成果就被比下去了。
現(xiàn)在的LLM并非通用智能
Llion Jones進一步指出,目前的大語言模型并非通用智能,呈現(xiàn)出「鋸齒狀智能」(jagged intelligence)的特性。
也就是說,它們能在某些任務上表現(xiàn)得像天才一樣,但轉眼就能犯出低級錯誤,讓人出戲。
它剛才還解出了一個博士級的問題,下一秒卻說出一個連小學生都不會錯的答案,這種反差非常刺眼。
他認為,這其實揭示了當前架構中某種根本性的問題。
問題在于,它們太「萬金油」了。
你可以讓它們做任何事,只要訓練足、調參準。
但正因為這樣,我們反而忽視了關鍵問題──「有沒有更好的方式來表示知識、思考問題」。
現(xiàn)在,大家把所有東西都往Transformer里堆,把它當成萬用工具來用,缺什么功能,就往上面硬加模塊。
我們明明知道要有不確定性建模、要有自適應計算能力,但我們卻選擇把這些特性外掛上去,而不是從架構本身去重新思考。
為了逃脫這個循環(huán),Jones在2025年初大幅減少Transformer相關研究,轉向更具探索性的方向。
他和Sakana AI的同事Luke Darlow等人,借鑒生物學和自然啟發(fā),設計了連續(xù)思維機(Continuous Thought Machines,CTM)。
傳送門:https://sakana.ai/ctm/
這不是天馬行空的發(fā)明,而是對大腦運作的簡化模擬。
大腦里的神經元不是靜態(tài)的開關,而是通過同步振蕩來傳遞信息。
CTM捕捉了這個精髓:它用神經動態(tài)作為核心表示,讓模型在「內部思考維度」上逐步展開計算。
他說,「我們并沒有追求完全生物學可行性,因為大腦并不是靠有線方式讓所有神經元同步的。但這種思路帶來了全新的研究可能?!?/p>
重要的是,他們在做這項研究時,并沒有任何學術圈常見的「搶發(fā)壓力」。
因為沒人做這個方向。他們有充分的時間去打磨這篇論文,把研究做實,把對照實驗做足。
他希望這項研究能成為一個「示范案例」,鼓勵其他研究者去嘗試那些看似風險高、但更可能通向下一個大突破的研究方向。
后人哀之而不鑒之
這是近期AI領域最坦誠的言論之一。
Llion Jones承認,當前多數研究可能只是在局部最優(yōu)解上修修補補,而真正的突破或許在完全不同的方向。
他對此深有體會——畢竟他曾親手讓上一代研究者的成果黯然失色。
令人不安的是:如果他是對的,那么所有埋頭改進Transformer變體的人都在浪費時間。
所有混合專家模型、所有架構微調、所有注意力機制變體——都可能在新范式出現(xiàn)時瞬間過時。
但陷阱在于:除非有人真正突破,否則你永遠無法確定自己是否困在局部最優(yōu)里。
身在局中時,一切看似都是進步。直到Transformer出現(xiàn)前,RNN的改進不也看起來勢不可擋嗎?
同樣, Ilya近期也評論道,僅靠Scaling當前架構并不足以實現(xiàn)AGI:
Scaling時代的一個后果是:Scaling吸走了房間里所有的氧氣。
正因如此,所有人開始做同樣的事。我們走到了今天這個局面——公司數量多于創(chuàng)新電子的世界。
那么該如何抉擇?
Llion Jones并未聲稱知道未來方向,只是坦言Transformer可能不是長期答案。這很誠實,卻缺乏可操作性。
這個難題在于:每次范式轉移,在事后看來都像是徒勞,但在當時卻是必要的探索。我們無法跳過這個階段,只能祈禱有人能更快找到出口。
Transformer已死?DeepMind正在押注另一條AGI路線
谷歌祭出Transformer殺手,8年首次大突破!掌門人劃出AGI死線
終結Transformer統(tǒng)治!清華姚班校友出手,劍指AI「災難性遺忘」
一封來自Transformer之父的分手信:8年了!世界需要新的AI架構
參考資料:
https://www.youtube.com/watch?v=DtePicx_kFY&t=1s
關鍵詞: 方向 rnn 大模型 神經網絡 transformer
新聞發(fā)布平臺 |科極網 |環(huán)球周刊網 |中國創(chuàng)投網 |教體產業(yè)網 |中國商界網 |萬能百科 |薄荷網 |資訊_時尚網 |連州財經網 |劇情啦 |5元服裝包郵 |中華網河南 |網購省錢平臺 |海淘返利 |太平洋裝修網 |勵普網校 |九十三度白茶網 |商標注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經網 |深圳熱線 |財報網 |財報網 |財報網 |咕嚕財經 |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經濟網 |中原網視臺 |財經產業(yè)網 |全球經濟網 |消費導報網 |外貿網 |重播網 |國際財經網 |星島中文網 |手機測評 |品牌推廣 |名律網 |項目大全 |整形資訊 |整形新聞 |美麗網 |佳人網 |稅法網 |法務網 |法律服務 |法律咨詢 |成報網 |媒體采購網 |聚焦網 |參考網 |熱點網
亞洲資本網 版權所有
Copyright © 2011-2020 亞洲資本網 All Rights Reserved. 聯(lián)系網站:55 16 53 8 @qq.com