近段時(shí)間,人工智能大模型展現(xiàn)了強(qiáng)大的自然語義處理能力,再次掀起了人工智能的研究熱潮。從圖靈測(cè)試開始,機(jī)器人能否與人對(duì)話就被用作判斷機(jī)器是否具有高級(jí)別認(rèn)知智能的依據(jù)。大模型的建立,讓人工智能距離通過圖靈測(cè)試更近一步。
那么,當(dāng)前的人工智能還有哪些潛力?在生物醫(yī)學(xué)領(lǐng)域應(yīng)如何更進(jìn)一步發(fā)展適用的人工智能?科技日?qǐng)?bào)記者日前對(duì)中國(guó)科學(xué)院院士、中國(guó)科學(xué)院生物物理研究所研究員陳潤(rùn)生進(jìn)行了采訪。
生物信息數(shù)據(jù)量大、維度廣
記者:距離人類遺傳密碼被破譯已經(jīng)過了20多年,但似乎仍有很多健康問題難以解決,這是為什么?
陳潤(rùn)生:過去我們認(rèn)為生物網(wǎng)絡(luò)是“單色”的,或者說是單因素作用的。因?yàn)楫?dāng)時(shí)我們認(rèn)為具有生命功能的分子只有蛋白質(zhì),遺傳物質(zhì)經(jīng)過轉(zhuǎn)錄、翻譯的過程轉(zhuǎn)化為蛋白質(zhì),進(jìn)而執(zhí)行生命活動(dòng)中的各項(xiàng)功能。
基于這樣的認(rèn)知,人類遺傳密碼的破譯被理解為解讀“生命天書”。將人類全部30億個(gè)堿基序列全部測(cè)序完成,就能讀懂這部“生命天書”,提綱挈領(lǐng)地搞清生命活動(dòng)的運(yùn)轉(zhuǎn)體系,從而揭開所有健康的秘密,獲得解決健康問題的手段。
但現(xiàn)在我們發(fā)現(xiàn),生物網(wǎng)絡(luò)不是“單色”的,生命活動(dòng)的調(diào)控、抑制、互作中,還有核酸的參與。比如有些核酸序列也會(huì)發(fā)揮之前被認(rèn)為屬于蛋白質(zhì)的功能,調(diào)控細(xì)胞活動(dòng)。在承載人類遺傳信息的30億個(gè)堿基對(duì)中,還有很大一部分雖然我們讀出了序列,但并不知道功能,它們?cè)谏顒?dòng)中究竟起到什么作用也沒有被研究清楚。大量這樣的區(qū)域被稱為遺傳物質(zhì)的“沙漠區(qū)”……因此,當(dāng)前對(duì)人類遺傳密碼的破譯進(jìn)程只走了解決健康問題過程中的一小步。
記者:既然生命活動(dòng)這么復(fù)雜,是否需要更多的生物信息數(shù)據(jù)才有希望破解健康難題?目前需要充分利用的有哪些維度的生物信息學(xué)數(shù)據(jù)?
陳潤(rùn)生:這30年來,人類遺傳密碼的破譯帶動(dòng)著整個(gè)生物醫(yī)學(xué)領(lǐng)域內(nèi)廣泛的數(shù)據(jù)都成為了大數(shù)據(jù)。
生物信息學(xué)最早的研究對(duì)象是遺傳密碼,研究任務(wù)是對(duì)遺傳密碼進(jìn)行收集、整理、存儲(chǔ)、發(fā)布、分析和解釋。現(xiàn)在數(shù)據(jù)更廣泛了,生物信息學(xué)的研究從20世紀(jì)八九十年代創(chuàng)立時(shí)的無信息可用,到現(xiàn)在數(shù)據(jù)呈現(xiàn)海量、多維、異質(zhì)化特征。比如通過電子病歷大數(shù)據(jù)挖掘,我們可以得到很多重要信息。中山大學(xué)一些研究人員通過電子病歷分析找到的科學(xué)結(jié)論被發(fā)表在了國(guó)際著名期刊上。又比如可穿戴設(shè)備帶來的生理生化指標(biāo),這類信息具備實(shí)時(shí)、環(huán)境情緒相關(guān)等特性。這些數(shù)據(jù)還包括醫(yī)院中的影像學(xué)數(shù)據(jù)、臨床病人在治療用藥后的病情變化數(shù)據(jù)、環(huán)境數(shù)據(jù)、微生物數(shù)據(jù)、地質(zhì)數(shù)據(jù)、化學(xué)農(nóng)藥殘留數(shù)據(jù)等。所有這些跟健康相關(guān)的數(shù)據(jù)集納起來,構(gòu)成了非常復(fù)雜的健康大數(shù)據(jù)類型。
可大幅提高生物信息處理能力
記者:如何解析復(fù)雜的健康大數(shù)據(jù)?
陳潤(rùn)生:健康大數(shù)據(jù)很復(fù)雜,舉例來說,電子病歷寫的是字,處理這樣的信息需要自然語言處理模塊,生理生化指標(biāo)如腦電、心電等信息需要處理的是波形圖,而影像學(xué)要處理圖像,組學(xué)要處理符號(hào)。對(duì)這些性質(zhì)各異的生物信息進(jìn)行全面提取處理,就如同秦始皇統(tǒng)一六國(guó)不僅要統(tǒng)一文字、語言,還要統(tǒng)一貨幣、度量衡,需要將不同的信息融通,再做解析和決策。
當(dāng)前最核心的生物醫(yī)學(xué)大數(shù)據(jù)問題是解決各種可測(cè)量的數(shù)據(jù),包括遺傳密碼與表觀表型之間的關(guān)系問題。我們知道分子水平的基因組學(xué)、蛋白質(zhì)組學(xué)研究產(chǎn)生的數(shù)據(jù)量不計(jì)其數(shù),近年來發(fā)展起來的表型組學(xué)研究也在不斷積累數(shù)據(jù)量,我們會(huì)逐漸擁有大量的表觀數(shù)據(jù)。那么這兩大數(shù)據(jù)如何偶聯(lián)?如此規(guī)模巨大、系統(tǒng)復(fù)雜的分析只能由人工智能來完成。
目前來看,要解析生物醫(yī)學(xué)大數(shù)據(jù),人工智能技術(shù)是最適用的手段。
記者:從最初的人工智能到阿爾法狗再到大模型,人工智能發(fā)生了哪些變化?當(dāng)前的大模型在處理生物醫(yī)學(xué)信息方面有哪些優(yōu)勢(shì)?
陳潤(rùn)生:20世紀(jì)80年代,由于受算力和算法的限制,我們能設(shè)計(jì)運(yùn)行的人工智能神經(jīng)網(wǎng)絡(luò)非常簡(jiǎn)單,只有幾層。
現(xiàn)在的人工智能神經(jīng)網(wǎng)絡(luò),比如阿爾法狗、阿爾法折疊等,它的網(wǎng)絡(luò)模型架構(gòu)達(dá)到200—300層。當(dāng)今的計(jì)算能力能夠使它們完成更加復(fù)雜的任務(wù)。
人工智能大模型讓人工智能更進(jìn)一步。我認(rèn)為大模型的出現(xiàn)表明人工智能有了多方面、更深刻的進(jìn)展。第一方面是對(duì)自然語言的處理能力發(fā)生了根本性的變化。處理人類的自然語言對(duì)于計(jì)算機(jī)來說很困難,突破這個(gè)能力后,人工智能可以擁有全局性的知識(shí)作為計(jì)算的基礎(chǔ)。
第二方面進(jìn)展是具備了預(yù)學(xué)習(xí)能力。人類之所以能產(chǎn)生智慧,是因?yàn)閺某錾詠硪恢痹诓粩喾e累學(xué)習(xí)。現(xiàn)在在大模型中,計(jì)算機(jī)已經(jīng)可以預(yù)學(xué)習(xí)了,能夠在大量的知識(shí)被預(yù)先獲得的前提下,再將具體科學(xué)問題交給計(jì)算機(jī),而不是針對(duì)某一個(gè)特定問題進(jìn)行學(xué)習(xí)。
第三方面進(jìn)展是可積極促進(jìn)模態(tài)融合。模態(tài)融合可以這樣理解,比如人工智能不僅能完成基礎(chǔ)醫(yī)學(xué)里的結(jié)構(gòu)預(yù)測(cè)工作,還能完成臨床醫(yī)學(xué)中的識(shí)圖判讀工作,更重要的是可以把這兩個(gè)能力融合起來,即人工智能在每個(gè)領(lǐng)域都具備專家的知識(shí),又能夠融會(huì)貫通、舉一反三。
基于以上三點(diǎn),我認(rèn)為發(fā)展人工智能作為未來醫(yī)學(xué)大數(shù)據(jù)挖掘的工具值得重視。
以人工智能解析生物醫(yī)學(xué)大數(shù)據(jù)
記者:很多人在健康出現(xiàn)問題之后的第一反應(yīng)是“為什么會(huì)這樣”,以后人工智能可以解答這樣的問題嗎?
陳潤(rùn)生:想要回答“為什么會(huì)這樣”這個(gè)問題涉及到人工智能界的兩個(gè)提法:弱人工智能和強(qiáng)人工智能。弱人工智能就像阿爾法狗,能處理特定任務(wù)。而強(qiáng)人工智能被認(rèn)為是有可能制造出來的、真正能推理和解決問題的智能機(jī)器。
所以你的問題其實(shí)是在問,強(qiáng)人工智能有可能出現(xiàn)嗎?過去我認(rèn)為是不可能的,但現(xiàn)在看來,我覺得隨著大模型的出現(xiàn),一些問題正在破冰,強(qiáng)人工智能有了出現(xiàn)的苗頭和希望。當(dāng)然,現(xiàn)階段人工智能的發(fā)展與真正的強(qiáng)人工智能還差得很遠(yuǎn)。
當(dāng)前我們正在進(jìn)行一些與醫(yī)學(xué)相關(guān)的人工智能研究。比如擴(kuò)大健康問題相關(guān)的參數(shù),抽提面部、表情等特征,也融合基因組、轉(zhuǎn)錄組、蛋白組、宏基因組、表觀組等全部維度的特征,甚至加入了中醫(yī)內(nèi)容,通過多模態(tài)融合建造醫(yī)學(xué)多模態(tài)數(shù)據(jù)智能整合計(jì)算平臺(tái),我們稱之為“靈樞”,并將其用于醫(yī)學(xué)健康問題的實(shí)踐。
記者:網(wǎng)上有人調(diào)侃,能寫論文的人工智能卻無法解釋清楚“驢肉火燒”“魚香肉絲”,而生物醫(yī)學(xué)領(lǐng)域?qū)τ谌斯ぶ悄艿囊蟾?,您認(rèn)為如何讓人工智能具有更嚴(yán)謹(jǐn)?shù)倪\(yùn)行能力?
陳潤(rùn)生:如何才能讓人工智能解釋清楚“驢肉火燒”“魚香肉絲”等人類世界的問題,其實(shí)是在問如何才能讓人工智能達(dá)到強(qiáng)人工智能的水平。
人工智能的智能水平主要由三個(gè)因素決定:數(shù)據(jù)、模型和算力。數(shù)據(jù)掌握在用戶手中,模型需要不斷研發(fā)討論精進(jìn),算力是由計(jì)算機(jī)的能力決定的。
從這三個(gè)決定因素入手,我們能夠發(fā)現(xiàn),在數(shù)據(jù)方面,要解決相應(yīng)的科學(xué)問題,人工智能掌握信息量高、信噪比低的足夠信息就可以了。在算力方面,要依靠計(jì)算機(jī)科學(xué)家不斷從硬件等解決方案入手提高運(yùn)算能力。
只有模型方面是值得研討的,現(xiàn)在的模型理論夠不夠達(dá)到強(qiáng)人工智能的要求,如何讓模型更強(qiáng)?
目前有幾個(gè)途徑可以讓模型更強(qiáng),即增加知識(shí)量、增加網(wǎng)絡(luò)節(jié)點(diǎn)數(shù)、增加網(wǎng)絡(luò)復(fù)雜度。當(dāng)前國(guó)際上幾個(gè)大模型的處理數(shù)據(jù)量已達(dá)到萬億參數(shù)級(jí)別,在此基礎(chǔ)上,我認(rèn)為需要進(jìn)一步增加的是網(wǎng)絡(luò)復(fù)雜度。
我們可以從生理學(xué)家的腦生理切片模型中得到啟發(fā)。新生兒的腦神經(jīng)網(wǎng)絡(luò)很簡(jiǎn)單,復(fù)雜度不夠,學(xué)不了多少東西。成長(zhǎng)讓人的腦神經(jīng)網(wǎng)絡(luò)逐步復(fù)雜,進(jìn)而承載更多內(nèi)容。因此,我們可以從研究腦發(fā)育中獲得啟發(fā),進(jìn)而形成一個(gè)更完善的基礎(chǔ)理論框架,獲得適用的模型,使人工智能走向強(qiáng)人工智能。
(科技日?qǐng)?bào)記者 張佳星)