總編輯圈點(diǎn)|用AI生成數(shù)據(jù)訓(xùn)練AI或?qū)е履Ｐ捅罎?，原始?nèi)容9次迭代后成了“胡言亂語(yǔ)”

2024-07-25 19:47:49 來(lái)源: 科技日?qǐng)?bào) 點(diǎn)擊數(shù)：

科技日?qǐng)?bào)記者?張夢(mèng)然

《自然》24日正式發(fā)表的一篇研究論文指出了一個(gè)人工智能（AI）嚴(yán)重問(wèn)題：用AI生成的數(shù)據(jù)集訓(xùn)練未來(lái)幾代機(jī)器學(xué)習(xí)模型，可能會(huì)嚴(yán)重“污染”它們的輸出，這被稱為“模型崩潰”。研究顯示，原始內(nèi)容會(huì)在9次迭代以后，變成不相關(guān)的“胡言亂語(yǔ)”（演示中一個(gè)建筑文本最終變成了野兔的名字），這凸顯出使用可靠數(shù)據(jù)訓(xùn)練AI模型的重要性。

研究模型測(cè)試。
圖源：《自然》

生成式AI工具越來(lái)越受歡迎，如大語(yǔ)言模型等，這類工具主要用人類生成的輸入進(jìn)行訓(xùn)練。不過(guò)，隨著這些AI模型在互聯(lián)網(wǎng)不斷壯大，計(jì)算機(jī)生成內(nèi)容可能會(huì)以遞歸循環(huán)的形式被用于訓(xùn)練其他AI模型或其自身。

包括英國(guó)牛津大學(xué)在內(nèi)的聯(lián)合團(tuán)隊(duì)一直在進(jìn)行相關(guān)研究，并在去年論文預(yù)印本中提出這一概念。在正式發(fā)表的論文中，他們用數(shù)學(xué)模型演示了AI可能會(huì)出現(xiàn)的“模型崩潰”。他們證明了一個(gè)AI會(huì)忽略訓(xùn)練數(shù)據(jù)中的某些輸出（如不太常見(jiàn)的文本），導(dǎo)致其只用一部分?jǐn)?shù)據(jù)集來(lái)自我訓(xùn)練。

團(tuán)隊(duì)分析了AI模型會(huì)如何處理主要由AI生成的數(shù)據(jù)集。他們發(fā)現(xiàn)，給模型輸入AI生成的數(shù)據(jù)，會(huì)減弱今后幾代模型的學(xué)習(xí)能力，最終導(dǎo)致了“模型崩潰”。他們測(cè)試的幾乎所有遞歸訓(xùn)練語(yǔ)言模型，都容易出現(xiàn)問(wèn)題。比如，一個(gè)用中世紀(jì)建筑文本作為原始輸入的測(cè)試，到第9代的輸出已經(jīng)是一串野兔的名字。

團(tuán)隊(duì)指出，用前幾代生成的數(shù)據(jù)集去訓(xùn)練AI，崩潰是一個(gè)不可避免的結(jié)局。他們認(rèn)為，必須對(duì)數(shù)據(jù)進(jìn)行嚴(yán)格過(guò)濾。與此同時(shí)，這也意味著依賴人類生成內(nèi)容的AI模型，或許能訓(xùn)練出更高效的AI模型。

總編輯圈點(diǎn)：

對(duì)AI來(lái)說(shuō)，“模型崩潰”就像癌癥一樣，甚至分早期與晚期。在早期時(shí)，被“喂”了生成數(shù)據(jù)的AI會(huì)開(kāi)始失去一些原始正確數(shù)據(jù)；但在晚期，被“喂”了生成數(shù)據(jù)的AI會(huì)“口吐狂言”——給出完全不符合現(xiàn)實(shí)，也和底層數(shù)據(jù)一點(diǎn)不相關(guān)的結(jié)果，就像本文中的例子一樣。更可怕的是，“模型崩潰”的AI極其固執(zhí)，錯(cuò)誤幾乎難以矯正。它會(huì)持續(xù)強(qiáng)化，最終把錯(cuò)誤結(jié)果認(rèn)為是正確的。這一問(wèn)題值得所有關(guān)注生成式AI的人們警惕，因?yàn)樗扔谑窃凇岸净盇I對(duì)真實(shí)世界的認(rèn)知。

責(zé)任編輯：常麗君

總編輯圈點(diǎn)|用AI生成數(shù)據(jù)訓(xùn)練AI或?qū)е履Ｐ捅罎?，原始?nèi)容9次迭代后成了“胡言亂語(yǔ)”

友情鏈接

抱歉，您使用的瀏覽器版本過(guò)低或開(kāi)啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí)，繼續(xù)瀏覽

總編輯圈點(diǎn)|用AI生成數(shù)據(jù)訓(xùn)練AI或?qū)е履Ｐ捅罎?，原始?nèi)容9次迭代后成了“胡言亂語(yǔ)”

友情鏈接

抱歉，您使用的瀏覽器版本過(guò)低或開(kāi)啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí)，繼續(xù)瀏覽

總編輯圈點(diǎn)|用AI生成數(shù)據(jù)訓(xùn)練AI或?qū)е履Ｐ捅罎?，原始?nèi)容9次迭代后成了“胡言亂語(yǔ)”

抱歉，您使用的瀏覽器版本過(guò)低或開(kāi)啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)