總編輯圈點|提高大語言模型可信度——新方法助生成式AI破除“幻覺”

2024-06-22 10:42:09 來源: 科技日報點擊數(shù)：

科技日報記者?張夢然

人工智能（AI）在給出準確答案的同時，也會有一些“胡亂輸出”令人難辨真假，這被稱為“幻覺”（hallucination）。而新一期《自然》雜志發(fā)表的一項研究報道了一種新方法，能檢測大語言模型（LLM）產(chǎn)生的“幻覺”，即該方法能測量生成回答的含義的不確定性，或能提升LLM輸出答案的可靠性。

研究團隊采用一種新方法可以對生成式AI給出的答案“把關(guān)”。
圖片來源：《自然》網(wǎng)站

類似ChatGPT和Gemini等LLM，是能閱讀和生成自然人類語言的AI系統(tǒng)。不過，這類系統(tǒng)很容易產(chǎn)生所謂“幻覺”，即生成不準確或沒有意義的內(nèi)容。檢測LLM出現(xiàn)的這種錯誤非常難，因為這些回答的呈現(xiàn)方式看起來很可信。

英國牛津大學研究團隊此次嘗試量化一個LLM產(chǎn)生此類錯誤的程度，從而判斷生成的內(nèi)容有多忠于提供的源內(nèi)容。他們的方法能檢測“編造”——這是幻覺的一個子類別，特指不準確和隨意的內(nèi)容，常出現(xiàn)在LLM缺乏某類知識的情況下。這種方法考慮了語言的微妙差別，以及回答如何能以不同的方式表達，從而擁有不同的含義。團隊的研究表明，他們的方法能在LLM生成的個人簡介，以及關(guān)于瑣事、常識和生命科學這類話題的回答中識別出“編造”內(nèi)容。

在同時發(fā)表的新聞與觀點文章中，澳大利亞皇家墨爾本理工大學科學家指出，該方法由一個LLM完成，并通過第三個LLM進行評價，等于在“以毒攻毒”。文章寫道，“用一個LLM評估一種基于LLM的方法似乎是在循環(huán)論證，而且可能有偏差?！辈贿^，團隊指出他們的方法有望幫助用戶理解在哪些情況下使用LLM的回答需要注意，也意味著可以提高LLM在更多應用場景中的置信度。

近兩年，國內(nèi)外各種人工智能大模型如雨后春筍般涌現(xiàn)，它們陸續(xù)在聊天機器人、智能搜索、文本生成等豐富多樣的場景中落地應用。以國內(nèi)為例，目前用戶可通過智能手機下載多款人工智能大模型應用，并與之聊天互動。不過，在應用過程中，人工智能大模型偶爾會“胡言亂語”的問題也受到關(guān)注。利用技術(shù)手段檢測它們是否在“胡言亂語”很有必要，從根本上避免人工智能大模型出現(xiàn)“幻覺”更是急需破解的難題。

責任編輯：常麗君

總編輯圈點|提高大語言模型可信度——新方法助生成式AI破除“幻覺”

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

總編輯圈點|提高大語言模型可信度——新方法助生成式AI破除“幻覺”

友情鏈接

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

您可以進行以下操作:

1.將瀏覽器切換回極速模式

2.點擊下面圖標升級或更換您的瀏覽器

3.暫不升級，繼續(xù)瀏覽

抱歉，您使用的瀏覽器版本過低或開啟了瀏覽器兼容模式，這會影響您正常瀏覽本網(wǎng)頁

3.暫不升級，繼續(xù)瀏覽