中國資本網(wǎng) > 熱點 > 正文
AI生成數(shù)據(jù)會“毒害”新模型,人工智能會“吃掉”自己嗎?
2023-08-23 20:45:23來源: 文匯報

隨著人工智能(AI)生成的內(nèi)容充斥互聯(lián)網(wǎng),它正在破壞未來模型訓(xùn)練的數(shù)據(jù)。當(dāng)AI“吃掉”自己時,會發(fā)生什么?

得益于生成式人工智能的蓬勃發(fā)展,普通人也可隨時使用計算機程序來生成文本、計算機代碼、圖像和音樂。與此同時,新的AI模型開發(fā)需要更多數(shù)據(jù)進行訓(xùn)練,這些由AI生成的內(nèi)容可能很快會進入訓(xùn)練新模型的數(shù)據(jù)集。一些專家表示,這將在無意中引入錯誤,并隨著每一代模型的誕生而不斷積累。

越來越多證據(jù)顯示,人工智能生成的文本,即使被引入訓(xùn)練數(shù)據(jù)集的量很少,最終也會對訓(xùn)練中的模型產(chǎn)生“毒害”。而目前,幾乎還沒有有效的“解毒劑”。英國愛丁堡大學(xué)信息學(xué)院計算機科學(xué)家里克·薩卡爾說:“雖然現(xiàn)在或幾個月后,這可能還不是問題,但我相信,幾年后這將成為一個必須要面對的問題?!?/p>


(資料圖)

AI生成數(shù)據(jù)“毒害”已真實存在

AI模型以自身產(chǎn)生的數(shù)據(jù)“毒害”自身的狀況,可能有點類似于核試驗帶給人類的困境。

自1945年人類引爆第一顆原子彈后,數(shù)十年的核試驗使得大量放射性塵埃進入地球大氣層。而當(dāng)這些空氣進入新制造的鋼材時,就會增高這些鋼材的輻射性。

對輻射特別敏感的鋼材應(yīng)用而言,例如蓋革計數(shù)器(一種用于測量放射性輻射的探測器),就必需使用低輻射金屬。因此,人們只能搶購日益減少的低輻射金屬,比如在舊船殘骸中尋找1945年前生產(chǎn)的鋼鐵廢料。

一些業(yè)內(nèi)人士認為,類似的循環(huán)將在AIGC中重演——研究人員不得不尋找沒有被“污染”的訓(xùn)練數(shù)據(jù)。

AI模型是如何“中毒”的?研究人員將一些由AI生成的語料作為訓(xùn)練數(shù)據(jù),“喂”給一個正在訓(xùn)練的語言模型,然后使用它所輸出的結(jié)果再來訓(xùn)練新模型,并重復(fù)這一循環(huán)。他們發(fā)現(xiàn),模型每迭代一次,錯誤就會疊加一次。當(dāng)人們要求第10次被訓(xùn)練出的模型寫出有關(guān)英國歷史建筑的內(nèi)容時,它“吐出”的卻是有關(guān)豺兔的一堆胡言亂語。

英國牛津大學(xué)機器學(xué)習(xí)研究員伊利亞·舒邁洛夫及其同事稱這種現(xiàn)象為“模型崩潰”。他們在語言模型、生成手寫數(shù)字和區(qū)分概率分布等模型中,都觀察到了這種現(xiàn)象。“即使在最簡單的模型中,這種情況也已經(jīng)發(fā)生?!笔孢~洛夫說,“我向你保證,在更復(fù)雜的模型中,也肯定已經(jīng)發(fā)生了”。

在最近的一項預(yù)印本研究中,薩卡爾及其在西班牙馬德里和英國愛丁堡的同事,用一種名為擴散模型的AI圖像生成器進行了類似的實驗:第一個模型可以生成可識別的花朵或鳥類,但到了第三個模型,所生成的圖片就變得模糊不清了。

薩卡爾說,其他測試也表明,即使是部分由AI生成的訓(xùn)練數(shù)據(jù)集也是“有毒”的。他解釋說:“只要有一部分訓(xùn)練數(shù)據(jù)源自人工智能所生成的內(nèi)容,就會產(chǎn)生問題。”但更多具體細節(jié)還有待研究。

目前研究表明,模型在其數(shù)據(jù)的“尾部”(模型訓(xùn)練集中出現(xiàn)頻率較低的數(shù)據(jù)元素)所受到的影響最大。由于這些尾部包含的數(shù)據(jù)與“標(biāo)準(zhǔn)”相去甚遠,模型崩潰可能導(dǎo)致AI輸出的結(jié)果失去“人類數(shù)據(jù)”特有的多樣性。

令舒邁洛夫特別擔(dān)心的是,這會加劇模型對邊緣群體的既有偏見,“我們需要加緊努力,來遏制這種情況的發(fā)生”。

阻止“模型崩潰”尚需求解

無可辯駁的事實是,AI生成的內(nèi)容已經(jīng)開始進入機器學(xué)習(xí)工程師們所習(xí)慣于獲取訓(xùn)練數(shù)據(jù)的領(lǐng)域。以語言模型為例:即使是主流新聞媒體也已經(jīng)開始發(fā)布人工智能生成的文章,一些百科網(wǎng)站的編輯也希望使用語言模型為網(wǎng)站生成內(nèi)容。

瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)學(xué)者維尼亞明·韋謝洛夫斯基認為,人類正處于這樣一個拐點,“許多我們用來訓(xùn)練模型的現(xiàn)有工具,很快就會被AI生成的文本‘喂飽’”。

有跡象表明,AI生成的數(shù)據(jù)也可能通過其他途徑進入模型訓(xùn)練。韋謝洛夫斯基及其同事通過統(tǒng)計分析發(fā)現(xiàn),已有約1/3的醫(yī)學(xué)研究摘要有ChatGPT生成文本的痕跡。

EPFL小組的研究成果于上個月發(fā)布在預(yù)印本服務(wù)器arXiv.org上。不過,機器學(xué)習(xí)工程師們也提出反駁。EPFL的研究生馬諾埃爾·奧爾塔·里貝羅認為,使用ChatGPT對文本數(shù)據(jù)進行注釋更加便捷且效果更佳。

面對模型崩潰的威脅,機器學(xué)習(xí)工程師該怎么辦?答案可能相當(dāng)于蓋革計數(shù)器中的戰(zhàn)前鋼鐵:已知不受(或盡可能不受)AIGC影響的數(shù)據(jù)。

例如,薩卡爾提出了采用“標(biāo)準(zhǔn)化”圖像數(shù)據(jù)集的想法。這些數(shù)據(jù)集將由人類進行策劃,因為人類知道這些數(shù)據(jù)集的內(nèi)容僅由人類創(chuàng)作組成,并且可供開發(fā)人員免費使用。

一些工程師可能想打開互聯(lián)網(wǎng)檔案館,查找AI熱潮之前的內(nèi)容,但舒邁洛夫并不認為使用歷史數(shù)據(jù)是一種解決方案。首先,可能沒有足夠的歷史信息來滿足不斷增長的模型需求。另外,這些歷史數(shù)據(jù)不一定能反映不斷變化的世界。

“如果你想收集過去100年的新聞,并試圖預(yù)測今天的新聞,這顯然是行不通的,因為技術(shù)和時代都已經(jīng)發(fā)生了變化?!笔孢~洛夫說。

因此,我們面臨的挑戰(zhàn)可能更為直接:從合成內(nèi)容中分辨出人工生成的數(shù)據(jù),并過濾掉后者。不過,即使有了這方面的技術(shù),這也遠不是一項簡單的任務(wù)。正如薩卡爾指出的那樣,如果Adobe Photoshop允許用戶使用人工智能生成技術(shù)編輯圖像,那么這樣編輯出來的圖像到底是不是人工智能生成的呢?

作者:楊馥溪/編譯

編輯:許琦敏

責(zé)任編輯:任荃

*文匯獨家稿件,轉(zhuǎn)載請注明出處。

關(guān)鍵詞:

相關(guān)新聞
專題新聞
  • LV推出充氣夾克多少錢?lv是什么檔次?
  • 三星手機業(yè)務(wù)換帥是哪一年?三星手機為什么撤出中國?
  • 股票配資是什么意思?個人做股票配資違法嗎?
  • 數(shù)據(jù)中心機房是干什么的?idc機房主要用于哪些工作?
  • 周樂偉接班董明珠真的嗎?格力集團是世界500強企業(yè)嗎?
  • 小米技術(shù)委員會厲害嗎?米家是不是小米旗下的公司?

京ICP備2021034106號-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com