123,123,123

<div id="erbkl"><pre id="erbkl"></pre></div>

亞洲資本網 > 資訊 > 熱點 > 正文

快看點丨Transformer親爹痛斥：當前AI陷死胡同，微調純屬浪費時間！

2026-01-17 13:28:25來源： 新智元

新智元報道

編輯：KingHZ

(資料圖片)

【新智元導讀】Transformer曾是AI革命的巔峰之作，但其發(fā)明者Llion Jones警告：它并非終點。就像RNN被取代一樣，當前無數(shù)微調研究可能只是局部優(yōu)化，而真正的AGI突破或藏在生物啟發(fā)的全新架構中。

Transformer是AI的終點嗎？

不是，絕對不是。

那Scaling是唯一通向AGI的路徑嗎？

在Transformer架構上研究最久的人，告訴你：不是。

Sakana AI的創(chuàng)始人、研究科學家Llion Jones，和其他7位合著者，一起發(fā)明了Transformer。

除了那七位共同作者，沒有人比他在Transformer上的研究更久。

盡管如此，去年，他做出了一個重要決定：大幅減少自己在Transformer上的研究投入。

不是因為這個領域沒有新鮮事，而是因為它已經被擠得水泄不通。

他直言，他成了自己成功的受害者：

我不認為Transformer就是終點，也不相信我們只需要繼續(xù)無限擴大規(guī)模。

某一天，我們會再次迎來突破，然后回頭發(fā)現(xiàn)，現(xiàn)在很多研究其實在白白浪費時間。

Transformer或重演RNN的悲劇

在Transformer出現(xiàn)之前，RNN是主流。

RNN的確是AI歷史上的重大突破。

突然間，所有人都開始致力于改進RNN。

但結果總是對同一架構做些微調，比如把門控單元換個位置，將語言建模的性能提升到 1.26、1.25 比特每字符。

在Transformer出現(xiàn)后，當我們把非常深的僅解碼器Transformer應用于同一任務時，立刻就達到了1.1 比特/字符。

于是，所有關于RNN的研究突然之間顯得白費了。

而現(xiàn)在的論文，似乎又回到了老路子：在同一個架構上，做無數(shù)微小的改動——比如調整normalization層的位置，或略微改良訓練方式。

2020年，時任谷歌DeepMind的研究員Sarah Hooker提出了「硬件彩票」：

通往AGI的道路不止一條，深度神經網絡剛好碰上了GPU這樣的硬件彩票。

論文鏈接：https://hardwarelottery.github.io/

「硬件彩票」這一術語，描述了某種研究思路之所以勝出，是因為它恰好契合現(xiàn)有的軟件和硬件條件，而非因為該思路在所有備選研究方向中具有普遍優(yōu)越性。

而Llion Jones則認為，Transformer是一種架構彩票，而業(yè)界恐怕重蹈RNN的覆轍。

哪怕已經有一些架構在論文中表現(xiàn)得比Transformer還好。但問題在于，新架構還不足夠好到讓整個行業(yè)放棄Transformer。

原因很現(xiàn)實：大家對Transformer的理解已經非常成熟，訓練方法、微調方式、配套軟件工具一應俱全。

你要大家從頭換一套，除非新架構好到「碾壓式勝出」，否則不可能。

Transformer取代RNN，是因為差距大到無法忽視。

深度學習的興起也是一樣。曾經大家還相信符號主義更靠譜，直到神經網絡在圖像識別上展現(xiàn)出壓倒性的優(yōu)勢。

Llion Jones認為Transformer太成功了，反而讓大家陷入了「陷阱」：

這就像有個巨大的「重力井」，所有嘗試離開的新方法都會被拉回來。

哪怕你真的做出了一個效果更好的新架構，只要OpenAI再把Transformer擴大十倍，那你的成果就被比下去了。

現(xiàn)在的LLM并非通用智能

Llion Jones進一步指出，目前的大語言模型并非通用智能，呈現(xiàn)出「鋸齒狀智能」（jagged intelligence）的特性。

也就是說，它們能在某些任務上表現(xiàn)得像天才一樣，但轉眼就能犯出低級錯誤，讓人出戲。

它剛才還解出了一個博士級的問題，下一秒?yún)s說出一個連小學生都不會錯的答案，這種反差非常刺眼。

他認為，這其實揭示了當前架構中某種根本性的問題。

問題在于，它們太「萬金油」了。

你可以讓它們做任何事，只要訓練足、調參準。

但正因為這樣，我們反而忽視了關鍵問題──「有沒有更好的方式來表示知識、思考問題」。

現(xiàn)在，大家把所有東西都往Transformer里堆，把它當成萬用工具來用，缺什么功能，就往上面硬加模塊。

我們明明知道要有不確定性建模、要有自適應計算能力，但我們卻選擇把這些特性外掛上去，而不是從架構本身去重新思考。

為了逃脫這個循環(huán)，Jones在2025年初大幅減少Transformer相關研究，轉向更具探索性的方向。

他和Sakana AI的同事Luke Darlow等人，借鑒生物學和自然啟發(fā)，設計了連續(xù)思維機（Continuous Thought Machines，CTM）。

傳送門：https://sakana.ai/ctm/

這不是天馬行空的發(fā)明，而是對大腦運作的簡化模擬。

大腦里的神經元不是靜態(tài)的開關，而是通過同步振蕩來傳遞信息。

CTM捕捉了這個精髓：它用神經動態(tài)作為核心表示，讓模型在「內部思考維度」上逐步展開計算。

他說，「我們并沒有追求完全生物學可行性，因為大腦并不是靠有線方式讓所有神經元同步的。但這種思路帶來了全新的研究可能?！?/p>

重要的是，他們在做這項研究時，并沒有任何學術圈常見的「搶發(fā)壓力」。

因為沒人做這個方向。他們有充分的時間去打磨這篇論文，把研究做實，把對照實驗做足。

他希望這項研究能成為一個「示范案例」，鼓勵其他研究者去嘗試那些看似風險高、但更可能通向下一個大突破的研究方向。

后人哀之而不鑒之

這是近期AI領域最坦誠的言論之一。

Llion Jones承認，當前多數(shù)研究可能只是在局部最優(yōu)解上修修補補，而真正的突破或許在完全不同的方向。

他對此深有體會——畢竟他曾親手讓上一代研究者的成果黯然失色。

令人不安的是：如果他是對的，那么所有埋頭改進Transformer變體的人都在浪費時間。

所有混合專家模型、所有架構微調、所有注意力機制變體——都可能在新范式出現(xiàn)時瞬間過時。

但陷阱在于：除非有人真正突破，否則你永遠無法確定自己是否困在局部最優(yōu)里。

身在局中時，一切看似都是進步。直到Transformer出現(xiàn)前，RNN的改進不也看起來勢不可擋嗎？

同樣， Ilya近期也評論道，僅靠Scaling當前架構并不足以實現(xiàn)AGI：

Scaling時代的一個后果是：Scaling吸走了房間里所有的氧氣。

正因如此，所有人開始做同樣的事。我們走到了今天這個局面——公司數(shù)量多于創(chuàng)新電子的世界。

那么該如何抉擇？

Llion Jones并未聲稱知道未來方向，只是坦言Transformer可能不是長期答案。這很誠實，卻缺乏可操作性。

這個難題在于：每次范式轉移，在事后看來都像是徒勞，但在當時卻是必要的探索。我們無法跳過這個階段，只能祈禱有人能更快找到出口。

Transformer已死？DeepMind正在押注另一條AGI路線

谷歌祭出Transformer殺手，8年首次大突破！掌門人劃出AGI死線

終結Transformer統(tǒng)治！清華姚班校友出手，劍指AI「災難性遺忘」

一封來自Transformer之父的分手信：8年了！世界需要新的AI架構

參考資料：

https://www.youtube.com/watch?v=DtePicx_kFY&t=1s

關鍵詞：方向 rnn 大模型神經網絡 transformer

相關新聞

權威數(shù)讀｜新年伊始，央行八項舉措助力逆周期跨周期調節(jié)力度|精選

權威數(shù)讀｜新年伊始，央行八項舉措助力逆周期跨周期調節(jié)力度|精選

交警進校園安全伴成長快資訊

交警進校園安全伴成長快資訊

專題新聞

熱點新聞

拉鋸戰(zhàn)！快船落后14分展開反撲：小卡因傷缺席，哈登13中3低迷

拉鋸戰(zhàn)！快船落后14分展開反撲：小卡因傷缺席，哈登13中3低迷

PriceSeek重點提醒：鐵礦石建筑鋼材成交環(huán)比下滑

PriceSeek重點提醒：鐵礦石建筑鋼材成交環(huán)比下滑

好利科技：股東擬減持不超過1%股份

好利科技：股東擬減持不超過1%股份

被武漢的黃昏狠狠驚艷！1號線，這一幕絕了

被武漢的黃昏狠狠驚艷！1號線，這一幕絕了

東莞理工學院攜手散裂中子源完成原位打印試驗

東莞理工學院攜手散裂中子源完成原位打印試驗

隔夜酒不是“護身符”二次酒駕代價高

隔夜酒不是“護身符”二次酒駕代價高

廣西南寧斯庚食品有限責任公司成立注冊資本10萬人民幣當前關注

廣西南寧斯庚食品有限責任公司成立注冊資本10萬人民幣當前關注

東莞市鴻木自動化設備有限公司成立注冊資本10萬人民幣-前沿資訊

東莞市鴻木自動化設備有限公司成立注冊資本10萬人民幣-前沿資訊

當前熱點湖北23歲女孩被逼嫁39歲男子，喝農藥以死抗婚？婦聯(lián)回應：已找到相關當事人

當前熱點湖北23歲女孩被逼嫁39歲男子，喝農藥以死抗婚？婦聯(lián)回應：已找到相關當事人

焦點速遞！明明給了收款碼卻被盜刷999元小心！有騙子靠“視頻截屏”設下陷阱

焦點速遞！明明給了收款碼卻被盜刷999元小心！有騙子靠“視頻截屏”設下陷阱

大家都在看

最近更新

快看點丨Transformer親爹痛斥：當前AI陷死胡同，微調純屬浪費時間！

每日看點!庫里祝賀克萊三分命中數(shù)升至歷史第四：耶，殺手！

14+17！太牛逼了！混音隊友點評楊瀚森...

西安電子科技大學科研團隊研發(fā)出高精度毫米波車載雷達天線當前聚焦

楊蘭，我們真的來了！今日熱文

海上石油相關上市公司全名單，一次說清楚?。?026/1/16）

A股半導體檢測概念股票龍頭，收藏好?。?026/1/16）

觀天下！下周解禁市值超464億元

焦點信息:貴港市聯(lián)晟電子有限公司成立注冊資本10萬人民幣

當前信息：廣西麥安研輕奢烘焙有限公司成立注冊資本5萬人民幣

快播：來賓市恒港木業(yè)有限公司成立注冊資本50萬人民幣

每日頭條!陸川縣祥榮再生資源有限公司成立注冊資本5萬人民幣

新動態(tài)：廣西恒健佳貿易有限公司成立注冊資本100萬人民幣

頭條焦點：下周解禁市值超464億元

【獨家焦點】火箭20分大勝雷霆，杜蘭特：輸球不必太在意

粵海飼料：股東承澤投資減持300萬股

坐高鐵不用自己扛行李了！貴陽火車站開通新服務今日視點

北戴河榮登國內游客境內旅游增速TOP10 同比增近3倍_視點

這4只膠原蛋白上市企業(yè)龍頭怎么樣（2026/1/16）

中國股市：消費電子PCB板塊龍頭股，名單收好！（2026/1/16）-實時

友情鏈接

新聞發(fā)布平臺 |科極網 |環(huán)球周刊網 |中國創(chuàng)投網 |教體產業(yè)網 |中國商界網 |萬能百科 |薄荷網 |資訊_時尚網 |連州財經網 |劇情啦 |5元服裝包郵 |中華網河南 |網購省錢平臺 |海淘返利 |太平洋裝修網 |勵普網校 |九十三度白茶網 |商標注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經網 |深圳熱線 |財報網 |財報網 |財報網 |咕嚕財經 |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經濟網 |中原網視臺 |財經產業(yè)網 |全球經濟網 |消費導報網 |外貿網 |重播網 |國際財經網 |星島中文網 |手機測評 |品牌推廣 |名律網 |項目大全 |整形資訊 |整形新聞 |美麗網 |佳人網 |稅法網 |法務網 |法律服務 |法律咨詢 |成報網 |媒體采購網 |聚焦網 |參考網 |熱點網

亞洲資本網版權所有

京ICP備2021034106號-51

Copyright © 2011-2020 亞洲資本網 All Rights Reserved. 聯(lián)系網站：55 16 53 8 @qq.com

<meter id="hhith"><p id="hhith"><form id="hhith"></form></p></meter>

<style id="hhith"><u id="hhith"></u></style>