Sora可根據(jù)文本內(nèi)容生成逼真視頻。圖片來源:Sora/OpenAI
科技日報記者?劉霞
繼推出ChatGPT后,新年伊始,OpenAI公司又推出了最新人工智能(AI)模型——文本-視頻程序Sora。這款工具可根據(jù)簡單的文本描述,生成類似好萊塢電影般的逼真而又充滿想象力的視頻。
英國《新科學家》雜志網(wǎng)站在2月17日的文章中指出,對Sora的到來,人們可能“既愛又怕”。不少科學家歡呼其到來,認為它將進一步推動技術進步。但也有人擔心,Sora會被別有用心之人用來制造深度偽造視頻,加劇錯誤和虛假信息的泛濫。
兩大技術孵化強大功能
Sora日語意為“天空”,其背后的團隊之所以選擇這個名字,是因為它“讓人聯(lián)想到無限的創(chuàng)造潛力”。該系統(tǒng)是生成式AI的一個最新實例。生成式AI可即時創(chuàng)建文本、圖像和聲音。
Sora目前可單獨使用文本指令,或將文本與圖像相結合,來創(chuàng)建長達60秒的視頻,而且是一鏡到底。比如一段演示視頻依據(jù)如下文字描述生成:一位時尚女性漫步于充滿城市標牌的東京街道上,道路兩邊霓虹燈閃爍,透出陣陣暖意。Sora不僅準確呈現(xiàn)了細節(jié),還生成了具有豐富情感的角色。
目前OpenAI官網(wǎng)上已更新了48個視頻,包括一只狗在雪地里嬉戲,車輛在路上行駛,以及更奇幻的場景,如鯊魚在城市摩天大樓之間游泳等。有專家認為,Sora的表現(xiàn)優(yōu)于其他類似模型,標志著文本-視頻技術的巨大飛躍。
為實現(xiàn)更高水平的真實感,Sora結合了兩種不同的AI技術。一是類似于DALL-E等AI圖像生成器中使用的擴散模型,這些模型學習將隨機圖像像素轉換為相干圖像;二是“轉換器架構”技術,其被用于將序列數(shù)據(jù)依據(jù)上下文內(nèi)容拼接在一起。例如,大型語言模型使用轉換器架構將零散的單詞組裝成人們可理解的句子。OpenAI將視頻片段分解為視覺“時空補丁”,Sora的轉換器架構可處理這些補丁。
英偉達公司高級研究科學家范麟熙在社交媒體平臺X上稱,Sora是一個可模擬現(xiàn)實世界的“數(shù)據(jù)驅動的物理引擎”。
仍有諸多完善空間
盡管Sora生成的視頻令人印象深刻,但并非完美無缺。
OpenAI公司也坦承,目前Sora模型也有弱點。它可能難以準確模擬復雜場景的物理特性,且可能無法理解因果關系。例如,該系統(tǒng)最近生成了一個人吃餅干的視頻,但餅干怎么吃也沒變小,被咬的餅干也神奇地沒有咬痕。此外,該模型還可能混淆文字提示的空間細節(jié),也可能難以精確描述隨時間推移發(fā)生的事件。
美國普林斯頓大學的阿凡德·納拉亞南也指出,Sora生成的視頻在描繪有大量動作的復雜場景時仍然會出現(xiàn)一些奇怪的小問題。
或使人真?zhèn)坞y辨
除了加快經(jīng)驗豐富的電影制作人的工作速度外,Sora還可能快速廉價的制造網(wǎng)絡虛假信息,使人們在互聯(lián)網(wǎng)上更難分辨真?zhèn)巍?/p>
OpenAI公司仍在試圖了解Sora的危險性,因此尚未向公眾發(fā)布該系統(tǒng)。相反,他們正在與為數(shù)不多的學者和其他外部研究人員分享這項技術,希望借助這些專家的智慧,找到該系統(tǒng)可能被濫用的方式。
OpenAI針對Sora開展的“紅隊”演習中,專家們試圖破壞AI模型的保護措施,以評估其被濫用的可能性。OpenAI發(fā)言人表示,目前參與測試Sora的都是“在錯誤信息、仇恨內(nèi)容和偏見等領域的專家”。
這項測試至關重要,因為Sora可能會被別有用心者用來生成虛假視頻,以騷擾他人,甚至影響政治選舉。學術界、商界、政府以及AI專家都很擔心,AI生成的“深度偽造”內(nèi)容可能會造成虛假和錯誤信息的廣泛傳播。
美國加州大學伯克利分校的哈尼·法里德認為,與生成式AI領域的其他技術一樣,人們有理由相信,文本-視頻技術會持續(xù)改進。因為一旦Sora與由AI驅動的語音克隆技術相結合,將為不懷好意者提供全新工具,并創(chuàng)建出逼真的深度偽造內(nèi)容,這將讓人們越來越難以區(qū)分真?zhèn)巍?/p>
OpenAI已經(jīng)在該系統(tǒng)生成的視頻中加上了水印,表明這些視頻是由AI生成的。但該公司也承認,這些水印可被移除,水印也可能難以被發(fā)現(xiàn)。
OpenAI發(fā)言人強調(diào)稱,在將Sora用于OpenAI的產(chǎn)品之前,該公司正在采取幾項重要的安全措施。例如,該公司已使用了自動化流程,旨在防止其商業(yè)AI模型生成針對政客和名人的虛假內(nèi)容。