版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們
導(dǎo)讀:5月9日,AlphaFold 3重磅問世,準確性遠超以往水平。在很多學(xué)者看來,這相當于給他們“戴上一副高清眼鏡”,對生物分子系統(tǒng)結(jié)構(gòu)進行更準確的預(yù)測。
此次發(fā)布的AlphaFold 3能預(yù)測蛋白質(zhì)與其他蛋白質(zhì)、核酸、小分子、離子、修飾蛋白質(zhì)殘基的復(fù)合物,以及抗體-抗原的相互作用,準確性顯著超過當前的預(yù)測工具。
我們第一時間聯(lián)系深圳灣實驗室系統(tǒng)與物理生物學(xué)研究所副所長、資深研究員周耀旗老師,早在去年11月,周耀旗通過對Deepmind與Isomorphic Labs 共同發(fā)布了的新聞稿對新一代AlphaFold模型:
AlphaFold3進行評論,他指出“AlphaFold3改變了以前AlphaFold2只能用于蛋白質(zhì)結(jié)構(gòu)預(yù)測的局限性,而使它能夠預(yù)測跟其它分子的復(fù)合物結(jié)構(gòu),包括小分子配體、多肽、多糖、蛋白質(zhì)、核酸(DNA 和 RNA)以及含有翻譯后修飾(PTM)的生物分子,可以說是包羅萬象了?!笨梢哉f,提早就預(yù)判了AlphaFfold3的主要特點。
今天,周耀旗老師將為我們解答AlphaFold3究竟厲害在哪里?
葉水送 | 采訪
周耀旗(深圳灣實驗室)| 嘉賓
為什么蛋白質(zhì)結(jié)構(gòu)預(yù)測很重要?
問:為什么蛋白質(zhì)結(jié)構(gòu)預(yù)測很重要?
周耀旗:我們生命體系的存在和發(fā)展主要靠幾類重要的生物大分子的協(xié)同相互作用。其中一條重要中心法則是包含遺傳信息的DNA分子,通過RNA分子,翻譯生成蛋白質(zhì)分子。蛋白質(zhì)分子是一個幾乎全能的分子機器,有記錄在案的就有一萬多種功能,包括分子馬達、結(jié)構(gòu)支持、信號傳遞、運輸、加速生命必需化學(xué)反應(yīng)、以及抵抗病毒、細菌侵入的抗體等等。
從化學(xué)組成來講,蛋白質(zhì)是一個非常簡單的線性高分子,由20個氨基酸排列組合而成,不同氨基酸排列就構(gòu)成了不同功能的蛋白質(zhì)。這跟我們的英語單詞很相似,每個字是20個字母所組成,不同數(shù)量字母的組合,形成不同意義的單詞。
跟英語單詞不一樣的地方是,蛋白質(zhì)之所以能夠具有各種各樣的功能,是因為多數(shù)蛋白質(zhì)能夠自己折疊成一個穩(wěn)定的、獨特的三維結(jié)構(gòu)來執(zhí)行它的功能。譬如有的蛋白質(zhì)在細胞膜內(nèi)能夠形成一個通道,控制某些分子在細胞內(nèi)部的進進出出。因此知道蛋白質(zhì)所形成的結(jié)構(gòu)形狀就可以知道蛋白質(zhì)這個分子機器是干什么的,怎么工作的。知道蛋白質(zhì)怎么工作非常重要,因為人類的大多數(shù)疾病是由于一個或者一些蛋白質(zhì)出了問題,把這些出了問題的蛋白質(zhì)關(guān)掉是治病的手段之一。因此,高精度的蛋白質(zhì)結(jié)構(gòu)是藥物設(shè)計的一個重要組成部分。
長期以來,蛋白質(zhì)所形成的結(jié)構(gòu)主要靠非常昂貴的儀器,非常耗時耗人工的實驗方法來解析,主要的儀器是核磁共振,X射線晶體衍射,冷凍電鏡。60年來,也才解析了20萬個蛋白質(zhì),是已知蛋白質(zhì)數(shù)目的千分之一,所以全部用實驗手段來解析所有的蛋白質(zhì)結(jié)構(gòu),無論是金錢上還是時間上都是不現(xiàn)實的, 因此,計算生物學(xué)家一直在努力發(fā)展計算方法來預(yù)測蛋白質(zhì)結(jié)構(gòu),促進我們對生命機制的理解和疾病的藥物開發(fā)。
回顧AlphaFold發(fā)展歷程
問:自2020年11月AlphaFold問世,現(xiàn)在已更新至第三代,每一次都令人驚艷,它是如何一步步發(fā)展過來的?每一代都有哪些特色?您能否簡單回顧下
周耀旗:AlphaFold的第一次問世是2018年,它參加了每兩年一度的第13屆蛋白質(zhì)結(jié)構(gòu)雙盲預(yù)測比賽,所謂雙盲就是計算生物學(xué)家進行結(jié)構(gòu)預(yù)測的時候,大家都不知道結(jié)構(gòu)是長什么樣的,因為測定這些結(jié)構(gòu)的實驗還沒有公布。而在實驗結(jié)構(gòu)出來之后,評估預(yù)測結(jié)構(gòu)的準確性的科學(xué)家也不知道是那個計算生物學(xué)家做的預(yù)測,可以避免主觀的因素。
從1996年第二屆比賽開始,到2016年的22年,進展非常慢,特別是對那些難度大,沒有已知結(jié)構(gòu)來作為模板的從頭預(yù)測方法, 100分滿分,預(yù)測結(jié)構(gòu)的分數(shù)22年才從27分進展到32分左右,要想達到85分以上的實驗精確度,估計還要200多年。
AlphaFold的2018年第一次問世把分數(shù)提到了>60及格以上,而2020年問世AlphaFold2一下子提到了85分,優(yōu)秀。第一代的AlphaFold解的是一個1+2=3的問題,用神經(jīng)網(wǎng)絡(luò)來預(yù)測一維主鏈的二面角走向,以及二維的主鏈原子間的接觸距離,然后把預(yù)測的一維角度概率和二維距離概率轉(zhuǎn)化成蛋白質(zhì)的能量函數(shù),對該蛋白的3維結(jié)構(gòu)進行能量最小化的優(yōu)化。第二代的AlphaFold解的也是一個1+2=3的問題,不同的是它完全避開了能量函數(shù),把整個體系搬到的神經(jīng)網(wǎng)絡(luò)里面,進行了所謂的端-到-端的訓(xùn)練和預(yù)測,通過蛋白質(zhì)序列和結(jié)構(gòu)的大數(shù)據(jù),以及高達9千萬參數(shù)的大模型,實現(xiàn)了蛋白質(zhì)結(jié)構(gòu)的高精度預(yù)測的飛躍。
AlphaFold 3有哪些優(yōu)勢和短板?
問:第三代和之前有何不同?有哪些新突破,還有何待發(fā)展之處?
周耀旗:剛剛問世的第三代AlphaFold跟以前的AlphaFold的最大不同是它不再局限于單個蛋白質(zhì)結(jié)構(gòu)的預(yù)測,而是努力成為一個通用模型,可以用于蛋白質(zhì)與其他分子相互作用復(fù)合物結(jié)構(gòu)的預(yù)測,包括蛋白質(zhì)的修飾,DNA分子,RNA分子,以及各種各樣的小分子。
除了應(yīng)用能力的擴展,它在計算方法上也有創(chuàng)新。把第二代AlphaFold中的進化模塊改成效率更高的成對模塊,把第二代AlphaFold中的結(jié)構(gòu)模塊變成直接產(chǎn)生三維坐標的擴散模塊,大幅度降低了計算的復(fù)雜度。
這個方法主要在蛋白質(zhì)-小分子配體,蛋白質(zhì)-蛋白質(zhì),抗體-抗原結(jié)構(gòu),蛋白質(zhì)- RNA/DNA復(fù)合物結(jié)構(gòu)上比當前最好方法前進了一大步,在蛋白質(zhì)修飾后的結(jié)構(gòu)預(yù)測實現(xiàn)了0到1的突破。但在RNA結(jié)構(gòu)預(yù)測方面,還不如基于我們BRiQ能量函數(shù)的AIchemy-RNA2方法。此外,在蛋白質(zhì)單體結(jié)構(gòu)預(yù)測上也沒有新的突破,還是嚴重依賴于同源序列的多少和質(zhì)量。
人工智能在研究領(lǐng)域還有哪些應(yīng)用?
問:AI for Science的概念這兩年被反復(fù)提及,人工智能在研究領(lǐng)域(以生物醫(yī)學(xué)為主)還有哪些應(yīng)用?
周耀旗:除了剛剛所說的AlphaFold在分子結(jié)構(gòu)預(yù)測這個的基礎(chǔ)研究以及它對新藥物開發(fā)設(shè)計這方面的應(yīng)用之外,人工智能也將徹底改變了生物醫(yī)學(xué)其他的方方面面。幾個明顯的例子是:
首先,醫(yī)學(xué)影像分析:人工智能將用于分析醫(yī)學(xué)影像,如X射線、MRI、CT掃描和組織病理學(xué)切片。
其次,個性化醫(yī)學(xué):人工智能算法分析病人數(shù)據(jù),包括遺傳信息、病史和生活方式因素,能夠識別疾病風(fēng)險因素、預(yù)測疾病進展,為病人制定個體化治療方案,將改善治療效果并減少不良反應(yīng)。
還有,虛擬健康助手和聊天機器人:人工智能驅(qū)動的聊天機器人和虛擬健康助手為病人提供個性化的健康建議、癥狀評估、用藥提醒和隨時隨地獲取醫(yī)療信息。
此外,還有健康監(jiān)測與可穿戴設(shè)備,電子健康記錄的數(shù)據(jù)挖掘,醫(yī)療機器人和手術(shù)等等。這些只是人工智能如何改變生物醫(yī)學(xué)領(lǐng)域的一些例子,不斷進行的研究和創(chuàng)新將帶來新的應(yīng)用和進展,這僅僅是開始,未來將有全方位的顛覆性變化。
與ChatGPT、Sora有何異同點?
問:alphafold 3也用到生成式AI,和現(xiàn)在被熱議的chatgpt、sora等,它們有什么異同點?
周耀旗:在alphafold 3和Sora一樣,都是利用擴散模型架構(gòu)來進行結(jié)構(gòu)或者視頻的生成。擴散模型架構(gòu)從隨機噪聲開始,逐步對其進行細化以生成最終結(jié)果。 而語言模型ChatGPT基于 Transformer 架構(gòu),這是一種已經(jīng)成為大型語言模型標準的深度學(xué)習(xí)架構(gòu)。
本文為科普中國·星空計劃扶持作品
團隊/作者:深究科學(xué)
審核:陶寧 中國科學(xué)院生物物理研究所副研究員
葉盛 北京航天航空大學(xué) 研究員
出品:中國科協(xié)科普部
監(jiān)制:中國科學(xué)技術(shù)出版社有限公司、北京中科星河文化傳媒有限公司
歡迎掃碼關(guān)注深i科普!
我們將定期推出
公益、免費、優(yōu)惠的科普活動和科普好物!