科技日報記者?張夢然
人工智能(AI)在給出準確答案的同時,也會有一些“胡亂輸出”令人難辨真假,這被稱為“幻覺”(hallucination)。而新一期《自然》雜志發(fā)表的一項研究報道了一種新方法,能檢測大語言模型(LLM)產(chǎn)生的“幻覺”,即該方法能測量生成回答的含義的不確定性,或能提升LLM輸出答案的可靠性。
研究團隊采用一種新方法可以對生成式AI給出的答案“把關(guān)”。
圖片來源:《自然》網(wǎng)站
類似ChatGPT和Gemini等LLM,是能閱讀和生成自然人類語言的AI系統(tǒng)。不過,這類系統(tǒng)很容易產(chǎn)生所謂“幻覺”,即生成不準確或沒有意義的內(nèi)容。檢測LLM出現(xiàn)的這種錯誤非常難,因為這些回答的呈現(xiàn)方式看起來很可信。
英國牛津大學研究團隊此次嘗試量化一個LLM產(chǎn)生此類錯誤的程度,從而判斷生成的內(nèi)容有多忠于提供的源內(nèi)容。他們的方法能檢測“編造”——這是幻覺的一個子類別,特指不準確和隨意的內(nèi)容,常出現(xiàn)在LLM缺乏某類知識的情況下。這種方法考慮了語言的微妙差別,以及回答如何能以不同的方式表達,從而擁有不同的含義。團隊的研究表明,他們的方法能在LLM生成的個人簡介,以及關(guān)于瑣事、常識和生命科學這類話題的回答中識別出“編造”內(nèi)容。
在同時發(fā)表的新聞與觀點文章中,澳大利亞皇家墨爾本理工大學科學家指出,該方法由一個LLM完成,并通過第三個LLM進行評價,等于在“以毒攻毒”。文章寫道,“用一個LLM評估一種基于LLM的方法似乎是在循環(huán)論證,而且可能有偏差?!辈贿^,團隊指出他們的方法有望幫助用戶理解在哪些情況下使用LLM的回答需要注意,也意味著可以提高LLM在更多應用場景中的置信度。
近兩年,國內(nèi)外各種人工智能大模型如雨后春筍般涌現(xiàn),它們陸續(xù)在聊天機器人、智能搜索、文本生成等豐富多樣的場景中落地應用。以國內(nèi)為例,目前用戶可通過智能手機下載多款人工智能大模型應用,并與之聊天互動。不過,在應用過程中,人工智能大模型偶爾會“胡言亂語”的問題也受到關(guān)注。利用技術(shù)手段檢測它們是否在“胡言亂語”很有必要,從根本上避免人工智能大模型出現(xiàn)“幻覺”更是急需破解的難題。