2月16日凌晨,美國人工智能公司OpenAI在其官網(wǎng)發(fā)布了文生視頻模型Sora,首次由AI生成了長達(dá)1分鐘的多鏡頭長視頻,鏡頭感堪比電影,引發(fā)關(guān)注。2月17日,據(jù)《紐約時(shí)報(bào)》和彭博社等媒體報(bào)道,OpenAI已完成一項(xiàng)允許員工出售公司股份的最新交易,使得這家AI公司的估值達(dá)到了860億美元。何為Sora?Sora為何能引發(fā)關(guān)注?又將會(huì)產(chǎn)生哪些影響?
圖源:Sora
能生成60秒視頻且對(duì)“物理規(guī)律”有超強(qiáng)學(xué)習(xí)能力
從發(fā)布的視頻來看,Sora 60秒的視頻中,視頻主體與背景保持了高度流暢性與穩(wěn)定性;在一個(gè)視頻里實(shí)現(xiàn)多角度鏡頭,分鏡切換符合邏輯且十分流暢;此外,Sora對(duì)于光影反射、運(yùn)動(dòng)方式、鏡頭移動(dòng)等細(xì)節(jié)處理非常到位。值得一提的是,在OpenAI公布的部分樣片中,Sora還展現(xiàn)了對(duì)“物理規(guī)律”超強(qiáng)的學(xué)習(xí)能力,無論是飄逸的毛發(fā)還是水體波紋,Sora都能“合乎常理”地呈現(xiàn)出來。
圖源:Sora
OpenAI究竟是怎么做到的?其官網(wǎng)介紹,通過一次性為模型提供多幀的預(yù)測(cè),他們解決了一個(gè)具有挑戰(zhàn)性的問題。
總體而言,Sora是一個(gè)在不同時(shí)長、分辨率和寬高比的視頻及圖像上訓(xùn)練而成的擴(kuò)散模型,同時(shí)采用了Transformer架構(gòu)。展開講,在視覺數(shù)據(jù)上,OpenAI把視頻和圖像分解為較小的數(shù)據(jù)單元Patches(補(bǔ)片),每個(gè)patches相當(dāng)于GPT中的一個(gè)token(詞元);在語言理解能力上,采用了DALL·E 3的重標(biāo)注技術(shù),通過為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)描述的標(biāo)題,使模型更加準(zhǔn)確地遵循用戶的文本指令生成視頻。另外,Sora還能將現(xiàn)有的靜態(tài)圖像轉(zhuǎn)化成視頻,精準(zhǔn)賦予圖像中內(nèi)容以生動(dòng)的動(dòng)作;模型還能擴(kuò)展現(xiàn)有視頻或補(bǔ)全缺失的幀。
簡單概括下來,Sora功能包括“文生視頻、圖生視頻、擴(kuò)展原視頻”,長度最高可達(dá)60秒,視頻更高清,細(xì)節(jié)更逼真,表現(xiàn)力更豐富。
Sora生成的視頻截屏
技術(shù)報(bào)告揭秘Sora 6大優(yōu)勢(shì)
在Sora推出后不久,OpenAI發(fā)布了這款新工具的技術(shù)報(bào)告?!睹咳战?jīng)濟(jì)新聞》經(jīng)過對(duì)報(bào)告的梳理,總結(jié)出了Sora的6大優(yōu)勢(shì)。
①準(zhǔn)確性和多樣性
Sora的顯著特征之一是能夠準(zhǔn)確解釋長達(dá)135個(gè)單詞的長提示。它可以準(zhǔn)確地解釋用戶提供的文本輸入,并生成具有各種場(chǎng)景和人物的高質(zhì)量視頻剪輯。它涵蓋了廣泛的主題,從人物和動(dòng)物到郁郁蔥蔥的風(fēng)景、城市場(chǎng)景、花園,甚至是水下的紐約市,可根據(jù)用戶的要求提供多樣化的內(nèi)容。
②強(qiáng)大的語言理解
OpenAI利用Dall-E模型的re-captioning(重述要點(diǎn))技術(shù),生成視覺訓(xùn)練數(shù)據(jù)的描述性字幕,不僅能提高文本的準(zhǔn)確性,還能提升視頻的整體質(zhì)量。此外,與DALL·E 3類似,OpenAI還利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)轉(zhuǎn)譯,并將其發(fā)送到視頻模型。這使Sora能夠精確地按照用戶提示生成高質(zhì)量的視頻。
圖源:Sora
③以圖/視頻生成視頻
Sora除了可以將文本轉(zhuǎn)化為視頻,還能接受其他類型的輸入提示,如已經(jīng)存在的圖像或視頻。這使Sora能夠執(zhí)行廣泛的圖像和視頻編輯任務(wù),如創(chuàng)建完美的循環(huán)視頻、將靜態(tài)圖像轉(zhuǎn)化為動(dòng)畫、向前或向后擴(kuò)展視頻等。
④視頻擴(kuò)展功能
由于可接受多樣化的輸入提示,用戶可以根據(jù)圖像創(chuàng)建視頻或補(bǔ)充現(xiàn)有視頻。作為基于Transformer的擴(kuò)散模型,Sora還能沿時(shí)間線向前或向后擴(kuò)展視頻。
⑤優(yōu)異的設(shè)備適配性
Sora具備出色的采樣能力,從寬屏的1920×1080p到豎屏的1080×1920,兩者之間的任何視頻尺寸都能輕松應(yīng)對(duì)。這意味著Sora能夠?yàn)楦鞣N設(shè)備生成與其原始縱橫比完美匹配的內(nèi)容。而在生成高分辨率內(nèi)容之前,Sora還能以小尺寸迅速創(chuàng)建內(nèi)容原型。
⑥場(chǎng)景和物體的一致性和連續(xù)性
Sora可以生成帶有動(dòng)態(tài)視角變化的視頻,人物和場(chǎng)景元素在三維空間中的移動(dòng)會(huì)顯得更加自然。Sora能夠很好地處理遮擋問題。現(xiàn)有模型的一個(gè)問題是,當(dāng)物體離開視野時(shí),它們可能無法對(duì)其進(jìn)行追蹤。而通過一次性提供多幀預(yù)測(cè),Sora可確保畫面主體即使暫時(shí)離開視野也能保持不變。
Sora生成的視頻中,主角臉上的雀斑清晰可見。圖片來源:OpenAI官網(wǎng)
Sora模型的實(shí)際生成效果仍是未知數(shù)
OpenAI官網(wǎng)稱,Sora模型可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性,并且可能無法理解因果關(guān)系。
在OpenAI發(fā)布的技術(shù)報(bào)告中有一段Sora模型生成的錯(cuò)誤視頻,展示了桌上的水杯會(huì)先從底部流出果汁,然后沿著錯(cuò)誤的方向和角度倒在桌上。
根據(jù)OpenAI官網(wǎng)的描述,Sora模型在模擬復(fù)雜場(chǎng)景時(shí)仍會(huì)出錯(cuò),并不總能準(zhǔn)確呈現(xiàn)物體狀態(tài)的改變。比如,它不能準(zhǔn)確地模擬許多日常的基本物理過程,像是玻璃破碎過程、吃食物后表面沒有咬痕、憑空生成并不需要的重復(fù)或變形畫面等。
圖源:Sora
此外,Sora模型的安全性、對(duì)于有害內(nèi)容的把控、對(duì)于偏見和歧視內(nèi)容的篩查,目前仍處于摸索當(dāng)中。Sora模型目前還處于測(cè)試階段,預(yù)計(jì)再經(jīng)過一段時(shí)間的安全測(cè)試和用戶反饋后才會(huì)正式提供服務(wù),因此還無法了解Sora模型的實(shí)際效果。
圖源:Sora
或?qū)τ耙暋V告、游戲、新聞、教育、VR\AR等行業(yè)產(chǎn)生深遠(yuǎn)影響
Sora會(huì)給人類帶來哪些影響?
北京郵電大學(xué)人機(jī)交互與認(rèn)知工程實(shí)驗(yàn)室主任劉偉表示,Sora在短期內(nèi)可能會(huì)對(duì)短視頻制作、影視行業(yè)以及視覺交互界面應(yīng)用產(chǎn)生較為顯著的影響;從長期來看,這項(xiàng)技術(shù)會(huì)為自動(dòng)駕駛、數(shù)字仿真、場(chǎng)景模擬等領(lǐng)域帶來改變。
中國企業(yè)資本聯(lián)盟副理事長柏文喜表示,Sora作為一種強(qiáng)大的視頻生成工具,可以極大地降低視頻制作的門檻和成本,使得更多人能夠輕松創(chuàng)建高質(zhì)量的視頻內(nèi)容。這將對(duì)影視、廣告、游戲、新聞、教育、VR\AR等諸多行業(yè)產(chǎn)生深遠(yuǎn)的影響,具有廣泛的應(yīng)用前景。
例如在影視行業(yè),人人都是導(dǎo)演的時(shí)代即將來臨,Sora可以快速生成逼真的場(chǎng)景和特效,幫助制作人員更好地實(shí)現(xiàn)創(chuàng)意,提高制作效率。在廣告行業(yè),Sora可以根據(jù)品牌需求和營銷目標(biāo),快速生成高質(zhì)量的廣告。
內(nèi)容創(chuàng)作的方式變革后,文學(xué)創(chuàng)作領(lǐng)域也將迎來復(fù)興,小說可以直接生成動(dòng)漫、電視劇。視頻內(nèi)容集中爆發(fā),自媒體行業(yè)也將迎來重新洗牌。隨著技術(shù)的不斷深挖,未來Sora會(huì)將在更多領(lǐng)域得到推廣應(yīng)用。
技術(shù)的變革是把雙刃劍。也許有人會(huì)問Sora的出現(xiàn)會(huì)對(duì)哪些崗位產(chǎn)生沖擊?
從上述專家的分析來看,目前最容易受到影響的或許是影視行業(yè)的從業(yè)者。例如視頻剪輯師、后期制作這類崗位,Sora能夠自動(dòng)或半自動(dòng)地生成視頻,這可能會(huì)導(dǎo)致傳統(tǒng)的視頻制作和編輯職位的需求下降。后期制作包括剪輯、特效、音效等環(huán)節(jié),這些工作也可以通過AI技術(shù)進(jìn)行自動(dòng)化或半自動(dòng)化處理。再比如新聞主持人這一崗位,Sora可以根據(jù)輸入的文本自動(dòng)生成視頻新聞報(bào)道,一些簡單的新聞報(bào)道任務(wù)可能會(huì)被Sora所取代。此外,游戲動(dòng)畫師、廣告創(chuàng)意和設(shè)計(jì)崗位、內(nèi)容創(chuàng)作者等崗位都有可能受到?jīng)_擊。
圖源:Sora
大模型的競(jìng)爭正在加劇
AI的世界,日新月異。
與其他文生視頻大模型僅能生成3至4秒的視頻相比,Sora模型生成的60秒視頻實(shí)現(xiàn)了明顯提升。
不過,OpenAI雖然遙遙領(lǐng)先,卻也不是完全沒有壓力。近幾個(gè)月來,科技巨頭們也紛紛宣布將帶著自己的模型進(jìn)入該領(lǐng)域,例如字節(jié)跳動(dòng)的MagicVideo-V2和谷歌的Lumiere。
值得關(guān)注的是,就在Sora發(fā)布的同日,谷歌也發(fā)布其最新力作——Gemini 1.5 Pro,其將穩(wěn)定處理上下文的上限擴(kuò)大至100萬Tokens(詞元),這代表它能一次處理大量的信息——包括1小時(shí)的視頻、11小時(shí)的音頻、超過3萬行代碼或超過70萬字的代碼庫。
大模型的競(jìng)爭正在加劇。
(中國科技網(wǎng)綜合藍(lán)鯨財(cái)經(jīng)、新民晚報(bào)、每日經(jīng)濟(jì)新聞、上海證券報(bào)、經(jīng)濟(jì)觀察報(bào)、瀟湘晨報(bào)、北青網(wǎng)、潮新聞等)