陳潤(rùn)生：解析生物醫(yī)學(xué)大數(shù)據(jù)，人工智能是最適用手段

2024-08-08 17:36:33 來(lái)源: 科技日?qǐng)?bào) 點(diǎn)擊數(shù)：

近段時(shí)間，人工智能大模型展現(xiàn)了強(qiáng)大的自然語(yǔ)義處理能力，再次掀起了人工智能的研究熱潮。從圖靈測(cè)試開(kāi)始，機(jī)器人能否與人對(duì)話(huà)就被用作判斷機(jī)器是否具有高級(jí)別認(rèn)知智能的依據(jù)。大模型的建立，讓人工智能距離通過(guò)圖靈測(cè)試更近一步。

那么，當(dāng)前的人工智能還有哪些潛力？在生物醫(yī)學(xué)領(lǐng)域應(yīng)如何更進(jìn)一步發(fā)展適用的人工智能？科技日?qǐng)?bào)記者日前對(duì)中國(guó)科學(xué)院院士、中國(guó)科學(xué)院生物物理研究所研究員陳潤(rùn)生進(jìn)行了采訪(fǎng)。

生物信息數(shù)據(jù)量大、維度廣

記者：距離人類(lèi)遺傳密碼被破譯已經(jīng)過(guò)了20多年，但似乎仍有很多健康問(wèn)題難以解決，這是為什么？

陳潤(rùn)生：過(guò)去我們認(rèn)為生物網(wǎng)絡(luò)是“單色”的，或者說(shuō)是單因素作用的。因?yàn)楫?dāng)時(shí)我們認(rèn)為具有生命功能的分子只有蛋白質(zhì)，遺傳物質(zhì)經(jīng)過(guò)轉(zhuǎn)錄、翻譯的過(guò)程轉(zhuǎn)化為蛋白質(zhì)，進(jìn)而執(zhí)行生命活動(dòng)中的各項(xiàng)功能。

基于這樣的認(rèn)知，人類(lèi)遺傳密碼的破譯被理解為解讀“生命天書(shū)”。將人類(lèi)全部30億個(gè)堿基序列全部測(cè)序完成，就能讀懂這部“生命天書(shū)”，提綱挈領(lǐng)地搞清生命活動(dòng)的運(yùn)轉(zhuǎn)體系，從而揭開(kāi)所有健康的秘密，獲得解決健康問(wèn)題的手段。

但現(xiàn)在我們發(fā)現(xiàn)，生物網(wǎng)絡(luò)不是“單色”的，生命活動(dòng)的調(diào)控、抑制、互作中，還有核酸的參與。比如有些核酸序列也會(huì)發(fā)揮之前被認(rèn)為屬于蛋白質(zhì)的功能，調(diào)控細(xì)胞活動(dòng)。在承載人類(lèi)遺傳信息的30億個(gè)堿基對(duì)中，還有很大一部分雖然我們讀出了序列，但并不知道功能，它們?cè)谏顒?dòng)中究竟起到什么作用也沒(méi)有被研究清楚。大量這樣的區(qū)域被稱(chēng)為遺傳物質(zhì)的“沙漠區(qū)”……因此，當(dāng)前對(duì)人類(lèi)遺傳密碼的破譯進(jìn)程只走了解決健康問(wèn)題過(guò)程中的一小步。

記者：既然生命活動(dòng)這么復(fù)雜，是否需要更多的生物信息數(shù)據(jù)才有希望破解健康難題？目前需要充分利用的有哪些維度的生物信息學(xué)數(shù)據(jù)？

陳潤(rùn)生：這30年來(lái)，人類(lèi)遺傳密碼的破譯帶動(dòng)著整個(gè)生物醫(yī)學(xué)領(lǐng)域內(nèi)廣泛的數(shù)據(jù)都成為了大數(shù)據(jù)。

生物信息學(xué)最早的研究對(duì)象是遺傳密碼，研究任務(wù)是對(duì)遺傳密碼進(jìn)行收集、整理、存儲(chǔ)、發(fā)布、分析和解釋?，F(xiàn)在數(shù)據(jù)更廣泛了，生物信息學(xué)的研究從20世紀(jì)八九十年代創(chuàng)立時(shí)的無(wú)信息可用，到現(xiàn)在數(shù)據(jù)呈現(xiàn)海量、多維、異質(zhì)化特征。比如通過(guò)電子病歷大數(shù)據(jù)挖掘，我們可以得到很多重要信息。中山大學(xué)一些研究人員通過(guò)電子病歷分析找到的科學(xué)結(jié)論被發(fā)表在了國(guó)際著名期刊上。又比如可穿戴設(shè)備帶來(lái)的生理生化指標(biāo)，這類(lèi)信息具備實(shí)時(shí)、環(huán)境情緒相關(guān)等特性。這些數(shù)據(jù)還包括醫(yī)院中的影像學(xué)數(shù)據(jù)、臨床病人在治療用藥后的病情變化數(shù)據(jù)、環(huán)境數(shù)據(jù)、微生物數(shù)據(jù)、地質(zhì)數(shù)據(jù)、化學(xué)農(nóng)藥殘留數(shù)據(jù)等。所有這些跟健康相關(guān)的數(shù)據(jù)集納起來(lái)，構(gòu)成了非常復(fù)雜的健康大數(shù)據(jù)類(lèi)型。

可大幅提高生物信息處理能力

記者：如何解析復(fù)雜的健康大數(shù)據(jù)？

陳潤(rùn)生：健康大數(shù)據(jù)很復(fù)雜，舉例來(lái)說(shuō)，電子病歷寫(xiě)的是字，處理這樣的信息需要自然語(yǔ)言處理模塊，生理生化指標(biāo)如腦電、心電等信息需要處理的是波形圖，而影像學(xué)要處理圖像，組學(xué)要處理符號(hào)。對(duì)這些性質(zhì)各異的生物信息進(jìn)行全面提取處理，就如同秦始皇統(tǒng)一六國(guó)不僅要統(tǒng)一文字、語(yǔ)言，還要統(tǒng)一貨幣、度量衡，需要將不同的信息融通，再做解析和決策。

當(dāng)前最核心的生物醫(yī)學(xué)大數(shù)據(jù)問(wèn)題是解決各種可測(cè)量的數(shù)據(jù)，包括遺傳密碼與表觀(guān)表型之間的關(guān)系問(wèn)題。我們知道分子水平的基因組學(xué)、蛋白質(zhì)組學(xué)研究產(chǎn)生的數(shù)據(jù)量不計(jì)其數(shù)，近年來(lái)發(fā)展起來(lái)的表型組學(xué)研究也在不斷積累數(shù)據(jù)量，我們會(huì)逐漸擁有大量的表觀(guān)數(shù)據(jù)。那么這兩大數(shù)據(jù)如何偶聯(lián)？如此規(guī)模巨大、系統(tǒng)復(fù)雜的分析只能由人工智能來(lái)完成。

目前來(lái)看，要解析生物醫(yī)學(xué)大數(shù)據(jù)，人工智能技術(shù)是最適用的手段。

記者：從最初的人工智能到阿爾法狗再到大模型，人工智能發(fā)生了哪些變化？當(dāng)前的大模型在處理生物醫(yī)學(xué)信息方面有哪些優(yōu)勢(shì)？

陳潤(rùn)生：20世紀(jì)80年代，由于受算力和算法的限制，我們能設(shè)計(jì)運(yùn)行的人工智能神經(jīng)網(wǎng)絡(luò)非常簡(jiǎn)單，只有幾層。

現(xiàn)在的人工智能神經(jīng)網(wǎng)絡(luò)，比如阿爾法狗、阿爾法折疊等，它的網(wǎng)絡(luò)模型架構(gòu)達(dá)到200—300層。當(dāng)今的計(jì)算能力能夠使它們完成更加復(fù)雜的任務(wù)。

人工智能大模型讓人工智能更進(jìn)一步。我認(rèn)為大模型的出現(xiàn)表明人工智能有了多方面、更深刻的進(jìn)展。第一方面是對(duì)自然語(yǔ)言的處理能力發(fā)生了根本性的變化。處理人類(lèi)的自然語(yǔ)言對(duì)于計(jì)算機(jī)來(lái)說(shuō)很困難，突破這個(gè)能力后，人工智能可以擁有全局性的知識(shí)作為計(jì)算的基礎(chǔ)。

第二方面進(jìn)展是具備了預(yù)學(xué)習(xí)能力。人類(lèi)之所以能產(chǎn)生智慧，是因?yàn)閺某錾詠?lái)一直在不斷積累學(xué)習(xí)。現(xiàn)在在大模型中，計(jì)算機(jī)已經(jīng)可以預(yù)學(xué)習(xí)了，能夠在大量的知識(shí)被預(yù)先獲得的前提下，再將具體科學(xué)問(wèn)題交給計(jì)算機(jī)，而不是針對(duì)某一個(gè)特定問(wèn)題進(jìn)行學(xué)習(xí)。

第三方面進(jìn)展是可積極促進(jìn)模態(tài)融合。模態(tài)融合可以這樣理解，比如人工智能不僅能完成基礎(chǔ)醫(yī)學(xué)里的結(jié)構(gòu)預(yù)測(cè)工作，還能完成臨床醫(yī)學(xué)中的識(shí)圖判讀工作，更重要的是可以把這兩個(gè)能力融合起來(lái)，即人工智能在每個(gè)領(lǐng)域都具備專(zhuān)家的知識(shí)，又能夠融會(huì)貫通、舉一反三。

基于以上三點(diǎn)，我認(rèn)為發(fā)展人工智能作為未來(lái)醫(yī)學(xué)大數(shù)據(jù)挖掘的工具值得重視。

以人工智能解析生物醫(yī)學(xué)大數(shù)據(jù)

記者：很多人在健康出現(xiàn)問(wèn)題之后的第一反應(yīng)是“為什么會(huì)這樣”，以后人工智能可以解答這樣的問(wèn)題嗎？

陳潤(rùn)生：想要回答“為什么會(huì)這樣”這個(gè)問(wèn)題涉及到人工智能界的兩個(gè)提法：弱人工智能和強(qiáng)人工智能。弱人工智能就像阿爾法狗，能處理特定任務(wù)。而強(qiáng)人工智能被認(rèn)為是有可能制造出來(lái)的、真正能推理和解決問(wèn)題的智能機(jī)器。

所以你的問(wèn)題其實(shí)是在問(wèn)，強(qiáng)人工智能有可能出現(xiàn)嗎？過(guò)去我認(rèn)為是不可能的，但現(xiàn)在看來(lái)，我覺(jué)得隨著大模型的出現(xiàn)，一些問(wèn)題正在破冰，強(qiáng)人工智能有了出現(xiàn)的苗頭和希望。當(dāng)然，現(xiàn)階段人工智能的發(fā)展與真正的強(qiáng)人工智能還差得很遠(yuǎn)。

當(dāng)前我們正在進(jìn)行一些與醫(yī)學(xué)相關(guān)的人工智能研究。比如擴(kuò)大健康問(wèn)題相關(guān)的參數(shù)，抽提面部、表情等特征，也融合基因組、轉(zhuǎn)錄組、蛋白組、宏基因組、表觀(guān)組等全部維度的特征，甚至加入了中醫(yī)內(nèi)容，通過(guò)多模態(tài)融合建造醫(yī)學(xué)多模態(tài)數(shù)據(jù)智能整合計(jì)算平臺(tái)，我們稱(chēng)之為“靈樞”，并將其用于醫(yī)學(xué)健康問(wèn)題的實(shí)踐。

記者：網(wǎng)上有人調(diào)侃，能寫(xiě)論文的人工智能卻無(wú)法解釋清楚“驢肉火燒”“魚(yú)香肉絲”，而生物醫(yī)學(xué)領(lǐng)域?qū)τ谌斯ぶ悄艿囊蟾?，您認(rèn)為如何讓人工智能具有更嚴(yán)謹(jǐn)?shù)倪\(yùn)行能力？

陳潤(rùn)生：如何才能讓人工智能解釋清楚“驢肉火燒”“魚(yú)香肉絲”等人類(lèi)世界的問(wèn)題，其實(shí)是在問(wèn)如何才能讓人工智能達(dá)到強(qiáng)人工智能的水平。

人工智能的智能水平主要由三個(gè)因素決定：數(shù)據(jù)、模型和算力。數(shù)據(jù)掌握在用戶(hù)手中，模型需要不斷研發(fā)討論精進(jìn)，算力是由計(jì)算機(jī)的能力決定的。

從這三個(gè)決定因素入手，我們能夠發(fā)現(xiàn)，在數(shù)據(jù)方面，要解決相應(yīng)的科學(xué)問(wèn)題，人工智能掌握信息量高、信噪比低的足夠信息就可以了。在算力方面，要依靠計(jì)算機(jī)科學(xué)家不斷從硬件等解決方案入手提高運(yùn)算能力。

只有模型方面是值得研討的，現(xiàn)在的模型理論夠不夠達(dá)到強(qiáng)人工智能的要求，如何讓模型更強(qiáng)？

目前有幾個(gè)途徑可以讓模型更強(qiáng)，即增加知識(shí)量、增加網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、增加網(wǎng)絡(luò)復(fù)雜度。當(dāng)前國(guó)際上幾個(gè)大模型的處理數(shù)據(jù)量已達(dá)到萬(wàn)億參數(shù)級(jí)別，在此基礎(chǔ)上，我認(rèn)為需要進(jìn)一步增加的是網(wǎng)絡(luò)復(fù)雜度。

我們可以從生理學(xué)家的腦生理切片模型中得到啟發(fā)。新生兒的腦神經(jīng)網(wǎng)絡(luò)很簡(jiǎn)單，復(fù)雜度不夠，學(xué)不了多少東西。成長(zhǎng)讓人的腦神經(jīng)網(wǎng)絡(luò)逐步復(fù)雜，進(jìn)而承載更多內(nèi)容。因此，我們可以從研究腦發(fā)育中獲得啟發(fā)，進(jìn)而形成一個(gè)更完善的基礎(chǔ)理論框架，獲得適用的模型，使人工智能走向強(qiáng)人工智能。

（科技日?qǐng)?bào)記者張佳星）

責(zé)任編輯：聶慧敏

陳潤(rùn)生：解析生物醫(yī)學(xué)大數(shù)據(jù)，人工智能是最適用手段

友情鏈接

抱歉，您使用的瀏覽器版本過(guò)低或開(kāi)啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí)，繼續(xù)瀏覽

陳潤(rùn)生：解析生物醫(yī)學(xué)大數(shù)據(jù)，人工智能是最適用手段

友情鏈接

抱歉，您使用的瀏覽器版本過(guò)低或開(kāi)啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

您可以進(jìn)行以下操作:

1.將瀏覽器切換回極速模式

2.點(diǎn)擊下面圖標(biāo)升級(jí)或更換您的瀏覽器

3.暫不升級(jí)，繼續(xù)瀏覽

抱歉，您使用的瀏覽器版本過(guò)低或開(kāi)啟了瀏覽器兼容模式，這會(huì)影響您正常瀏覽本網(wǎng)頁(yè)

3.暫不升級(jí)，繼續(xù)瀏覽