123,123,123

AI生成數(shù)據(jù)會“毒害”新模型，人工智能會“吃掉”自己嗎？

2023-08-23 20:45:23來源： 文匯報

隨著人工智能（AI）生成的內容充斥互聯(lián)網(wǎng)，它正在破壞未來模型訓練的數(shù)據(jù)。當AI“吃掉”自己時，會發(fā)生什么？

得益于生成式人工智能的蓬勃發(fā)展，普通人也可隨時使用計算機程序來生成文本、計算機代碼、圖像和音樂。與此同時，新的AI模型開發(fā)需要更多數(shù)據(jù)進行訓練，這些由AI生成的內容可能很快會進入訓練新模型的數(shù)據(jù)集。一些專家表示，這將在無意中引入錯誤，并隨著每一代模型的誕生而不斷積累。

越來越多證據(jù)顯示，人工智能生成的文本，即使被引入訓練數(shù)據(jù)集的量很少，最終也會對訓練中的模型產(chǎn)生“毒害”。而目前，幾乎還沒有有效的“解毒劑”。英國愛丁堡大學信息學院計算機科學家里克·薩卡爾說：“雖然現(xiàn)在或幾個月后，這可能還不是問題，但我相信，幾年后這將成為一個必須要面對的問題?！?/p>

(資料圖)

AI生成數(shù)據(jù)“毒害”已真實存在

AI模型以自身產(chǎn)生的數(shù)據(jù)“毒害”自身的狀況，可能有點類似于核試驗帶給人類的困境。

自1945年人類引爆第一顆原子彈后，數(shù)十年的核試驗使得大量放射性塵埃進入地球大氣層。而當這些空氣進入新制造的鋼材時，就會增高這些鋼材的輻射性。

對輻射特別敏感的鋼材應用而言，例如蓋革計數(shù)器（一種用于測量放射性輻射的探測器），就必需使用低輻射金屬。因此，人們只能搶購日益減少的低輻射金屬，比如在舊船殘骸中尋找1945年前生產(chǎn)的鋼鐵廢料。

一些業(yè)內人士認為，類似的循環(huán)將在AIGC中重演——研究人員不得不尋找沒有被“污染”的訓練數(shù)據(jù)。

AI模型是如何“中毒”的？研究人員將一些由AI生成的語料作為訓練數(shù)據(jù)，“喂”給一個正在訓練的語言模型，然后使用它所輸出的結果再來訓練新模型，并重復這一循環(huán)。他們發(fā)現(xiàn)，模型每迭代一次，錯誤就會疊加一次。當人們要求第10次被訓練出的模型寫出有關英國歷史建筑的內容時，它“吐出”的卻是有關豺兔的一堆胡言亂語。

英國牛津大學機器學習研究員伊利亞·舒邁洛夫及其同事稱這種現(xiàn)象為“模型崩潰”。他們在語言模型、生成手寫數(shù)字和區(qū)分概率分布等模型中，都觀察到了這種現(xiàn)象?！凹词乖谧詈唵蔚哪Ｐ椭?，這種情況也已經(jīng)發(fā)生?！笔孢~洛夫說，“我向你保證，在更復雜的模型中，也肯定已經(jīng)發(fā)生了”。

在最近的一項預印本研究中，薩卡爾及其在西班牙馬德里和英國愛丁堡的同事，用一種名為擴散模型的AI圖像生成器進行了類似的實驗：第一個模型可以生成可識別的花朵或鳥類，但到了第三個模型，所生成的圖片就變得模糊不清了。

薩卡爾說，其他測試也表明，即使是部分由AI生成的訓練數(shù)據(jù)集也是“有毒”的。他解釋說：“只要有一部分訓練數(shù)據(jù)源自人工智能所生成的內容，就會產(chǎn)生問題?！钡嗑唧w細節(jié)還有待研究。

目前研究表明，模型在其數(shù)據(jù)的“尾部”（模型訓練集中出現(xiàn)頻率較低的數(shù)據(jù)元素）所受到的影響最大。由于這些尾部包含的數(shù)據(jù)與“標準”相去甚遠，模型崩潰可能導致AI輸出的結果失去“人類數(shù)據(jù)”特有的多樣性。

令舒邁洛夫特別擔心的是，這會加劇模型對邊緣群體的既有偏見，“我們需要加緊努力，來遏制這種情況的發(fā)生”。

阻止“模型崩潰”尚需求解

無可辯駁的事實是，AI生成的內容已經(jīng)開始進入機器學習工程師們所習慣于獲取訓練數(shù)據(jù)的領域。以語言模型為例：即使是主流新聞媒體也已經(jīng)開始發(fā)布人工智能生成的文章，一些百科網(wǎng)站的編輯也希望使用語言模型為網(wǎng)站生成內容。

瑞士洛桑聯(lián)邦理工學院（EPFL)學者維尼亞明·韋謝洛夫斯基認為，人類正處于這樣一個拐點，“許多我們用來訓練模型的現(xiàn)有工具，很快就會被AI生成的文本‘喂飽’”。

有跡象表明，AI生成的數(shù)據(jù)也可能通過其他途徑進入模型訓練。韋謝洛夫斯基及其同事通過統(tǒng)計分析發(fā)現(xiàn)，已有約1/3的醫(yī)學研究摘要有ChatGPT生成文本的痕跡。

EPFL小組的研究成果于上個月發(fā)布在預印本服務器arXiv.org上。不過，機器學習工程師們也提出反駁。EPFL的研究生馬諾埃爾·奧爾塔·里貝羅認為，使用ChatGPT對文本數(shù)據(jù)進行注釋更加便捷且效果更佳。

面對模型崩潰的威脅，機器學習工程師該怎么辦？答案可能相當于蓋革計數(shù)器中的戰(zhàn)前鋼鐵：已知不受（或盡可能不受）AIGC影響的數(shù)據(jù)。

例如，薩卡爾提出了采用“標準化”圖像數(shù)據(jù)集的想法。這些數(shù)據(jù)集將由人類進行策劃，因為人類知道這些數(shù)據(jù)集的內容僅由人類創(chuàng)作組成，并且可供開發(fā)人員免費使用。

一些工程師可能想打開互聯(lián)網(wǎng)檔案館，查找AI熱潮之前的內容，但舒邁洛夫并不認為使用歷史數(shù)據(jù)是一種解決方案。首先，可能沒有足夠的歷史信息來滿足不斷增長的模型需求。另外，這些歷史數(shù)據(jù)不一定能反映不斷變化的世界。

“如果你想收集過去100年的新聞，并試圖預測今天的新聞，這顯然是行不通的，因為技術和時代都已經(jīng)發(fā)生了變化。”舒邁洛夫說。

因此，我們面臨的挑戰(zhàn)可能更為直接：從合成內容中分辨出人工生成的數(shù)據(jù)，并過濾掉后者。不過，即使有了這方面的技術，這也遠不是一項簡單的任務。正如薩卡爾指出的那樣，如果Adobe Photoshop允許用戶使用人工智能生成技術編輯圖像，那么這樣編輯出來的圖像到底是不是人工智能生成的呢？

作者：楊馥溪/編譯

編輯：許琦敏

責任編輯：任荃

*文匯獨家稿件，轉載請注明出處。

關鍵詞：