AI翻開(kāi)生命“密碼全書(shū)”  全新大模型可預(yù)測(cè)和設(shè)計(jì)基因序列

2024-11-16 07:50:21 來(lái)源: 科技日?qǐng)?bào) 點(diǎn)擊數(shù):

科技日?qǐng)?bào)記者 張夢(mèng)然

《科學(xué)》雜志15日發(fā)布了一項(xiàng)突破性研究成果:美國(guó)斯坦福大學(xué)Arc研究所團(tuán)隊(duì)利用人工智能(AI),開(kāi)發(fā)出一種大規(guī)模基因組基礎(chǔ)模型“Evo”,翻開(kāi)了生命的“密碼全書(shū)”。該模型采用先進(jìn)架構(gòu),能夠以前所未有的精度,解析和設(shè)計(jì)從分子層面到整個(gè)基因組級(jí)別的DNA、RNA及蛋白質(zhì)序列。其不僅能夠預(yù)測(cè)突變對(duì)細(xì)胞內(nèi)部各個(gè)調(diào)控層級(jí)的影響,還能設(shè)計(jì)出用于操控細(xì)胞功能的DNA序列,這或?qū)氐赘淖兒铣缮飳W(xué)的發(fā)展路徑。

科學(xué)家一直試圖借鑒大型語(yǔ)言模型的成功經(jīng)驗(yàn),讓AI技術(shù)將DNA視為一種“語(yǔ)言”來(lái)建模,但現(xiàn)有模型捕捉廣泛基因組交互作用的能力有限。

此次,研究團(tuán)隊(duì)開(kāi)發(fā)了具備70億參數(shù)的Evo模型,能夠生成覆蓋整個(gè)基因組的DNA序列。該模型利用270萬(wàn)來(lái)自進(jìn)化多樣性微生物的基因組數(shù)據(jù)集進(jìn)行了訓(xùn)練,并首次報(bào)告了DNA領(lǐng)域的縮放定律,這項(xiàng)發(fā)現(xiàn)與語(yǔ)言和視覺(jué)領(lǐng)域已知的現(xiàn)象相呼應(yīng)。實(shí)驗(yàn)結(jié)果顯示,Evo在預(yù)測(cè)性和生成性的生物學(xué)任務(wù)中均表現(xiàn)優(yōu)異,無(wú)論是預(yù)測(cè)突變對(duì)細(xì)菌蛋白質(zhì)和RNA的影響,還是在模擬基因調(diào)控機(jī)制方面,都展現(xiàn)出了極高的準(zhǔn)確性。

此外,Evo還能夠處理編碼序列與非編碼序列之間的復(fù)雜共進(jìn)化關(guān)系,支持設(shè)計(jì)包括功能性CRISPR-Cas復(fù)合體和轉(zhuǎn)座子在內(nèi)的復(fù)雜生物體系。這是首次實(shí)現(xiàn)蛋白質(zhì)-RNA和蛋白質(zhì)-DNA結(jié)構(gòu)與語(yǔ)言模型協(xié)同設(shè)計(jì)的例子。在全基因組尺度上,Evo能夠生成超過(guò)100萬(wàn)堿基對(duì)的序列,其預(yù)測(cè)和生成能力涵蓋了從分子到基因組的多層次復(fù)雜度,極大推進(jìn)了人們對(duì)生物學(xué)本質(zhì)的認(rèn)識(shí)和操控能力。

團(tuán)隊(duì)認(rèn)為,后續(xù)模型將進(jìn)一步擴(kuò)展至人類(lèi)及其他真核生物的基因組數(shù)據(jù)學(xué)習(xí),通過(guò)增加上下文長(zhǎng)度來(lái)更好地捕捉大基因組間的遠(yuǎn)程相互作用。這將為生物學(xué)研究開(kāi)辟新的視野,推動(dòng)生命科學(xué)領(lǐng)域的持續(xù)發(fā)展。

基因組序列的變化,其實(shí)有助于生物體適應(yīng)不斷改變的環(huán)境條件,進(jìn)而驅(qū)動(dòng)物種進(jìn)化。隨著DNA測(cè)序技術(shù)的飛躍進(jìn)步,科學(xué)家已能夠在全基因組范圍內(nèi)繪制出基因組變異圖譜。再結(jié)合創(chuàng)新的AI算法,使得構(gòu)建一個(gè)能深入理解DNA、RNA和蛋白質(zhì)功能及其相互作用的綜合模型成為可能。換句話(huà)說(shuō),現(xiàn)在,人們擁有了一個(gè)解碼生命指令的基因組基礎(chǔ)模型。

責(zé)任編輯:李夢(mèng)一

抱歉,您使用的瀏覽器版本過(guò)低或開(kāi)啟了瀏覽器兼容模式,這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí),繼續(xù)瀏覽

繼續(xù)瀏覽