隨著人工智能(AI)生成的內(nèi)容充斥互聯(lián)網(wǎng),它正在破壞未來模型訓(xùn)練的數(shù)據(jù)。當(dāng)AI“吃掉”自己時,會發(fā)生什么?
得益于生成式人工智能的蓬勃發(fā)展,普通人也可隨時使用計算機程序來生成文本、計算機代碼、圖像和音樂。與此同時,新的AI模型開發(fā)需要更多數(shù)據(jù)進行訓(xùn)練,這些由AI生成的內(nèi)容可能很快會進入訓(xùn)練新模型的數(shù)據(jù)集。一些專家表示,這將在無意中引入錯誤,并隨著每一代模型的誕生而不斷積累。
越來越多證據(jù)顯示,人工智能生成的文本,即使被引入訓(xùn)練數(shù)據(jù)集的量很少,最終也會對訓(xùn)練中的模型產(chǎn)生“毒害”。而目前,幾乎還沒有有效的“解毒劑”。英國愛丁堡大學(xué)信息學(xué)院計算機科學(xué)家里克·薩卡爾說:“雖然現(xiàn)在或幾個月后,這可能還不是問題,但我相信,幾年后這將成為一個必須要面對的問題?!?/p>
(資料圖)
AI生成數(shù)據(jù)“毒害”已真實存在
AI模型以自身產(chǎn)生的數(shù)據(jù)“毒害”自身的狀況,可能有點類似于核試驗帶給人類的困境。
自1945年人類引爆第一顆原子彈后,數(shù)十年的核試驗使得大量放射性塵埃進入地球大氣層。而當(dāng)這些空氣進入新制造的鋼材時,就會增高這些鋼材的輻射性。
對輻射特別敏感的鋼材應(yīng)用而言,例如蓋革計數(shù)器(一種用于測量放射性輻射的探測器),就必需使用低輻射金屬。因此,人們只能搶購日益減少的低輻射金屬,比如在舊船殘骸中尋找1945年前生產(chǎn)的鋼鐵廢料。
一些業(yè)內(nèi)人士認為,類似的循環(huán)將在AIGC中重演——研究人員不得不尋找沒有被“污染”的訓(xùn)練數(shù)據(jù)。
AI模型是如何“中毒”的?研究人員將一些由AI生成的語料作為訓(xùn)練數(shù)據(jù),“喂”給一個正在訓(xùn)練的語言模型,然后使用它所輸出的結(jié)果再來訓(xùn)練新模型,并重復(fù)這一循環(huán)。他們發(fā)現(xiàn),模型每迭代一次,錯誤就會疊加一次。當(dāng)人們要求第10次被訓(xùn)練出的模型寫出有關(guān)英國歷史建筑的內(nèi)容時,它“吐出”的卻是有關(guān)豺兔的一堆胡言亂語。
英國牛津大學(xué)機器學(xué)習(xí)研究員伊利亞·舒邁洛夫及其同事稱這種現(xiàn)象為“模型崩潰”。他們在語言模型、生成手寫數(shù)字和區(qū)分概率分布等模型中,都觀察到了這種現(xiàn)象。“即使在最簡單的模型中,這種情況也已經(jīng)發(fā)生?!笔孢~洛夫說,“我向你保證,在更復(fù)雜的模型中,也肯定已經(jīng)發(fā)生了”。
在最近的一項預(yù)印本研究中,薩卡爾及其在西班牙馬德里和英國愛丁堡的同事,用一種名為擴散模型的AI圖像生成器進行了類似的實驗:第一個模型可以生成可識別的花朵或鳥類,但到了第三個模型,所生成的圖片就變得模糊不清了。
薩卡爾說,其他測試也表明,即使是部分由AI生成的訓(xùn)練數(shù)據(jù)集也是“有毒”的。他解釋說:“只要有一部分訓(xùn)練數(shù)據(jù)源自人工智能所生成的內(nèi)容,就會產(chǎn)生問題。”但更多具體細節(jié)還有待研究。
目前研究表明,模型在其數(shù)據(jù)的“尾部”(模型訓(xùn)練集中出現(xiàn)頻率較低的數(shù)據(jù)元素)所受到的影響最大。由于這些尾部包含的數(shù)據(jù)與“標(biāo)準(zhǔn)”相去甚遠,模型崩潰可能導(dǎo)致AI輸出的結(jié)果失去“人類數(shù)據(jù)”特有的多樣性。
令舒邁洛夫特別擔(dān)心的是,這會加劇模型對邊緣群體的既有偏見,“我們需要加緊努力,來遏制這種情況的發(fā)生”。
阻止“模型崩潰”尚需求解
無可辯駁的事實是,AI生成的內(nèi)容已經(jīng)開始進入機器學(xué)習(xí)工程師們所習(xí)慣于獲取訓(xùn)練數(shù)據(jù)的領(lǐng)域。以語言模型為例:即使是主流新聞媒體也已經(jīng)開始發(fā)布人工智能生成的文章,一些百科網(wǎng)站的編輯也希望使用語言模型為網(wǎng)站生成內(nèi)容。
瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)學(xué)者維尼亞明·韋謝洛夫斯基認為,人類正處于這樣一個拐點,“許多我們用來訓(xùn)練模型的現(xiàn)有工具,很快就會被AI生成的文本‘喂飽’”。
有跡象表明,AI生成的數(shù)據(jù)也可能通過其他途徑進入模型訓(xùn)練。韋謝洛夫斯基及其同事通過統(tǒng)計分析發(fā)現(xiàn),已有約1/3的醫(yī)學(xué)研究摘要有ChatGPT生成文本的痕跡。
EPFL小組的研究成果于上個月發(fā)布在預(yù)印本服務(wù)器arXiv.org上。不過,機器學(xué)習(xí)工程師們也提出反駁。EPFL的研究生馬諾埃爾·奧爾塔·里貝羅認為,使用ChatGPT對文本數(shù)據(jù)進行注釋更加便捷且效果更佳。
面對模型崩潰的威脅,機器學(xué)習(xí)工程師該怎么辦?答案可能相當(dāng)于蓋革計數(shù)器中的戰(zhàn)前鋼鐵:已知不受(或盡可能不受)AIGC影響的數(shù)據(jù)。
例如,薩卡爾提出了采用“標(biāo)準(zhǔn)化”圖像數(shù)據(jù)集的想法。這些數(shù)據(jù)集將由人類進行策劃,因為人類知道這些數(shù)據(jù)集的內(nèi)容僅由人類創(chuàng)作組成,并且可供開發(fā)人員免費使用。
一些工程師可能想打開互聯(lián)網(wǎng)檔案館,查找AI熱潮之前的內(nèi)容,但舒邁洛夫并不認為使用歷史數(shù)據(jù)是一種解決方案。首先,可能沒有足夠的歷史信息來滿足不斷增長的模型需求。另外,這些歷史數(shù)據(jù)不一定能反映不斷變化的世界。
“如果你想收集過去100年的新聞,并試圖預(yù)測今天的新聞,這顯然是行不通的,因為技術(shù)和時代都已經(jīng)發(fā)生了變化?!笔孢~洛夫說。
因此,我們面臨的挑戰(zhàn)可能更為直接:從合成內(nèi)容中分辨出人工生成的數(shù)據(jù),并過濾掉后者。不過,即使有了這方面的技術(shù),這也遠不是一項簡單的任務(wù)。正如薩卡爾指出的那樣,如果Adobe Photoshop允許用戶使用人工智能生成技術(shù)編輯圖像,那么這樣編輯出來的圖像到底是不是人工智能生成的呢?
作者:楊馥溪/編譯
編輯:許琦敏
責(zé)任編輯:任荃
*文匯獨家稿件,轉(zhuǎn)載請注明出處。
關(guān)鍵詞:
新聞發(fā)布平臺 |科極網(wǎng) |環(huán)球周刊網(wǎng) |tp錢包官網(wǎng)下載 |中國創(chuàng)投網(wǎng) |教體產(chǎn)業(yè)網(wǎng) |中國商界網(wǎng) |萬能百科 |薄荷網(wǎng) |資訊_時尚網(wǎng) |連州財經(jīng)網(wǎng) |劇情啦 |5元服裝包郵 |中華網(wǎng)河南 |網(wǎng)購省錢平臺 |海淘返利 |太平洋裝修網(wǎng) |勵普網(wǎng)校 |九十三度白茶網(wǎng) |商標(biāo)注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財經(jīng)網(wǎng) |深圳熱線 |財報網(wǎng) |財報網(wǎng) |財報網(wǎng) |咕嚕財經(jīng) |太原熱線 |電路維修 |防水補漏 |水管維修 |墻面翻修 |舊房維修 |參考經(jīng)濟網(wǎng) |中原網(wǎng)視臺 |財經(jīng)產(chǎn)業(yè)網(wǎng) |全球經(jīng)濟網(wǎng) |消費導(dǎo)報網(wǎng) |外貿(mào)網(wǎng) |重播網(wǎng) |國際財經(jīng)網(wǎng) |星島中文網(wǎng) |手機測評 |品牌推廣 |名律網(wǎng) |項目大全 |整形資訊 |整形新聞 |美麗網(wǎng) |佳人網(wǎng) |稅法網(wǎng) |法務(wù)網(wǎng) |法律服務(wù) |法律咨詢 |成報網(wǎng) |媒體采購網(wǎng) |聚焦網(wǎng) |參考網(wǎng)
中國資本網(wǎng) 版權(quán)所有
Copyright © 2011-2020 亞洲資本網(wǎng) All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com