在我們每個(gè)人的體檢報(bào)告中,有不少跟蛋白有關(guān)的指標(biāo),比如白蛋白、球蛋白、總蛋白、轉(zhuǎn)鐵蛋白等。我們的身體是由數(shù)不清的蛋白質(zhì)構(gòu)成的,蛋白質(zhì)和我們的疾病、衰老息息相關(guān),但人類真正了解的蛋白質(zhì)結(jié)構(gòu),至今也不過20萬~30萬個(gè),可以說是九牛一毛。而AI的出現(xiàn),正以前所未有的力量加速人類對(duì)蛋白質(zhì)的探索過程。有專家預(yù)測(cè),在人工智能加持下,未來人類有望破解大量目前還無法破解的疾病,人們的壽命可以輕松突破一百歲;甚至有更大膽的預(yù)測(cè),能達(dá)到150歲。
這看起來有點(diǎn)不可思議,不過,AI加速下的蛋白質(zhì)研究已經(jīng)顯露出強(qiáng)大的能力,近期取得了一系列重大成果。戳視頻,一起跟隨記者的深度調(diào)研,來了解破解生命密碼的AI蛋白質(zhì)研究↓↓↓
破解生命密碼的AI蛋白質(zhì)研究
總臺(tái)央視記者 張春玲:我是人類,這是宏觀層面的分類。當(dāng)顯微鏡把鏡頭對(duì)準(zhǔn)我的微觀世界,我其實(shí)是由30萬億~40萬億個(gè)細(xì)胞組成的。再往下說,每個(gè)細(xì)胞又包含了約數(shù)十億甚至上百億個(gè)蛋白質(zhì)分子,所以我的身體所包含的蛋白質(zhì)分子,可能高達(dá)數(shù)千萬億億個(gè)。
總臺(tái)央視記者 張春玲:膠原蛋白、血紅蛋白、抗體蛋白、消化酶等蛋白質(zhì)就像我們身體里的運(yùn)輸工、質(zhì)檢員、維修工,維持著我們機(jī)體正常而舒適的生活狀態(tài),一旦某個(gè)蛋白“開了小差”,我們的身體就會(huì)報(bào)錯(cuò),甚至停擺。研究蛋白不僅能幫我們找到疾病的真兇,更能幫我們?cè)O(shè)計(jì)出精準(zhǔn)的治療方案,研究蛋白就是現(xiàn)代醫(yī)學(xué)破解人類疾病的終極鑰匙,而AI讓原本緩慢的一切加速了。
把蛋白質(zhì)圖片變成微電影
探秘我國首個(gè)微觀生命大模型
蛋白質(zhì)研究如此龐大而復(fù)雜,科學(xué)家希望不再單純依賴昂貴且費(fèi)時(shí)的傳統(tǒng)實(shí)驗(yàn)方法去認(rèn)識(shí)蛋白質(zhì),而是像大語言模型生成內(nèi)容一樣,訓(xùn)練AI,讓AI來推算出蛋白質(zhì)的立體結(jié)構(gòu)。這對(duì)研究疾病、研發(fā)新藥都將有重要作用。去年諾貝爾化學(xué)獎(jiǎng)得主,就是設(shè)計(jì)了一個(gè)可以預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu)的人工智能大模型:AlphaFold。
而近期,我國科研人員研發(fā)的首個(gè)微觀生命大模型,在AlphaFold的基礎(chǔ)上,功能又升級(jí)了。它不僅能預(yù)測(cè)出靜態(tài)的蛋白質(zhì)結(jié)構(gòu),而且能夠模擬出它的動(dòng)態(tài)變化過程。相當(dāng)于把蛋白質(zhì)的圖片寫真變成了微電影。
近期,北京智源研究院的科研人員研發(fā)出了微觀生命模型OpenComplex2,不僅已經(jīng)可以完成AlphaFold同類模型的預(yù)測(cè)功能,同時(shí)還可以預(yù)測(cè)出更大、更復(fù)雜的蛋白質(zhì)結(jié)構(gòu),與其他的蛋白質(zhì)預(yù)測(cè)模型僅能預(yù)測(cè)出蛋白質(zhì)結(jié)構(gòu)的照片不同,它能像拍電影一樣預(yù)測(cè)出蛋白質(zhì)的動(dòng)態(tài)結(jié)構(gòu)。
北京智源人工智能研究院、健康計(jì)算研究中心 葉啟威:其實(shí)所有的蛋白質(zhì)都不僅僅是一個(gè)靜態(tài)的結(jié)構(gòu),所以我們的模型更重要的是想進(jìn)一步探索。不僅僅想預(yù)測(cè)這些積木的形狀,而且要理解這些積木隨著時(shí)間會(huì)以什么樣的形式進(jìn)行變化,并且它們之間相互作用之后會(huì)產(chǎn)生什么樣的效果,我們能根據(jù)這樣的效果去推斷我們能生成什么樣的藥物,這是整個(gè)模型的一大特點(diǎn)。
總臺(tái)央視記者 張春玲:自然界中已知的有超2億種蛋白質(zhì),但慶幸的是,它們的基本組成單元就像積木一樣,只有20多塊。這20多塊積木就像是20多種氨基酸,可以進(jìn)行無數(shù)的組合,形成一個(gè)長長的序列,我們叫它“氨基酸序列”。
總臺(tái)央視記者 張春玲:過去30多年中,冷凍電鏡、核磁共振、X射線等,許多我們觀察微觀世界的“武器”,都可以幫助我們撥開部分蛋白質(zhì)結(jié)構(gòu)的迷霧,它們?yōu)槲⒂^世界的蛋白質(zhì)拍攝了大量寫真??蒲腥藛T介紹,目前,全球的公開數(shù)據(jù)可以學(xué)習(xí)到的蛋白質(zhì)微觀結(jié)構(gòu)累積了23萬到30萬個(gè),這些寶貴的蛋白質(zhì)信息成了大模型的語料庫。科學(xué)家們讓大模型學(xué)習(xí)這些蛋白質(zhì)的語言,從而可以預(yù)測(cè)出蛋白質(zhì)的結(jié)構(gòu)。
葉啟威:之前,我們的模型在一個(gè)國際競(jìng)賽中已經(jīng)連續(xù)拿了30個(gè)月左右的冠軍,證明了我們?cè)诮Y(jié)構(gòu)預(yù)測(cè)這些任務(wù)上做得非常好。
這個(gè)由我國科學(xué)家自主設(shè)計(jì)研發(fā)的蛋白質(zhì)大模型近期即將開源,可以幫助生命科學(xué)的研究者加速破解更多密碼,也可以助力藥物研發(fā)機(jī)構(gòu)更快尋找疾病的靶點(diǎn)、研究出解決頑疾的鑰匙。
AI蛋白質(zhì)研究加速創(chuàng)新藥走向臨床
蛋白質(zhì)研究的目標(biāo),不僅在于了解生命本身,它可以幫助我們?nèi)パ邪l(fā)藥物,進(jìn)行疾病的篩查和干預(yù)。在人工智能的加速下,未來將推動(dòng)越來越多新的檢測(cè)和治療手段走入我們的生活,讓我們真正享受到科技發(fā)展帶來的福利。
只需采一次外周血,對(duì)血漿進(jìn)行蛋白檢測(cè),就能精準(zhǔn)預(yù)測(cè)數(shù)百種疾病的患病風(fēng)險(xiǎn)。這是復(fù)旦大學(xué)附屬華山醫(yī)院與類腦智能科學(xué)與技術(shù)研究院相關(guān)團(tuán)隊(duì)聯(lián)合攻關(guān)的交叉研究成果,登上了2025年《細(xì)胞》(Cell)雜志封面。利用傳統(tǒng)的研究方式,血漿高通量測(cè)序蛋白質(zhì)數(shù)據(jù)存在復(fù)雜交互作用,往往難以單獨(dú)處理,而通過AI算法,能夠高效提取關(guān)鍵特征,構(gòu)建精確預(yù)測(cè)診斷模型。
他們總結(jié)了1706種人類疾病與表型,與蛋白質(zhì)表達(dá)之間的關(guān)系,借助機(jī)器學(xué)習(xí)模型挖掘出極具潛力的疾病預(yù)測(cè)診斷生物標(biāo)志物和治療靶點(diǎn)。
對(duì)于大眾而言,不久的將來就可以通過血液的檢測(cè),快速鎖定上百種疾病的可能,從而快速進(jìn)行預(yù)防和治療。對(duì)于醫(yī)學(xué)從業(yè)者而言,他們將不再需要漫無目的試錯(cuò),可以快速尋找到哪些蛋白成為藥物干預(yù)的靶點(diǎn),加速藥物研發(fā)和試劑的設(shè)計(jì)。
AI應(yīng)用于藥物研發(fā)
或?qū)⒋蚱啤半p十定律”
在醫(yī)藥界有一個(gè)著名的“雙十定律”,一款創(chuàng)新藥從啟動(dòng)研發(fā)到上市,平均要花10年、10億美元。而現(xiàn)在AI正在用一種更系統(tǒng)、更高效的方式,打通從疾病機(jī)制研究到藥物設(shè)計(jì)的每一個(gè)環(huán)節(jié)。沿著這個(gè)研究范式,團(tuán)隊(duì)又取得了一個(gè)重大進(jìn)展。
復(fù)旦大學(xué)附屬華山醫(yī)院神經(jīng)內(nèi)科副主任 郁金泰:我們采用數(shù)據(jù)驅(qū)動(dòng)的手段,發(fā)現(xiàn)了一個(gè)前所未知的新基因,這個(gè)新基因的一個(gè)關(guān)鍵蛋白是參與帕金森發(fā)病的病理傳播中最關(guān)鍵的一環(huán),這樣,我們就可以通過干預(yù)環(huán)節(jié)從而延緩帕金森的進(jìn)程。
最終,團(tuán)隊(duì)快速從7000多個(gè)小分子當(dāng)中篩選到了可以和帕金森致病蛋白結(jié)構(gòu)上能結(jié)合的分子,目前這個(gè)分子藥物已經(jīng)進(jìn)入了臨床前研究階段。在人工智能加速下,藥物的研發(fā)一氣呵成,即便是科研人員自己都感慨:速度之快,難以想象。
算法創(chuàng)新
AI加速破解蛋白質(zhì)序列謎題
AI不僅能夠預(yù)測(cè)蛋白質(zhì)結(jié)構(gòu),還能預(yù)測(cè)出蛋白質(zhì)的重要組成單元氨基酸序列。圍繞這個(gè)重要的科研目標(biāo),國家蛋白質(zhì)中心和上海人工智能實(shí)驗(yàn)室的科研人員聯(lián)合創(chuàng)新了一個(gè)算法模型,讓解答蛋白質(zhì)謎題的過程又加速了。
在中國,蛋白質(zhì)研究是如何開展的?記者來到了國家蛋白質(zhì)科學(xué)中心,這里承擔(dān)了人類肝臟蛋白質(zhì)組計(jì)劃、中國人類蛋白質(zhì)組計(jì)劃等國際國家級(jí)大科學(xué)計(jì)劃。
國家蛋白質(zhì)科學(xué)(北京)中心研究員 常乘:我們要做的事情,就是從這些譜峰里解析出它對(duì)應(yīng)的氨基酸序列到底是什么。
總臺(tái)央視記者 張春玲:氨基酸雖然有20多種,但是它們的修飾狀態(tài)有很多種,科研人員要像解謎題一樣把它們解讀出來,不僅要推導(dǎo)出它們是哪種氨基酸,還要解讀出它們用了哪種修飾,從而徹底地了解一個(gè)蛋白質(zhì)氨基酸的序列。
現(xiàn)在,科學(xué)家正在用AI加速這個(gè)過程。
總臺(tái)央視記者 張春玲:這就是國家蛋白質(zhì)科學(xué)中心和上海人工智能實(shí)驗(yàn)合作的項(xiàng)目之一。通過一種創(chuàng)新的AI算法,科研人員破解了蛋白質(zhì)序列從頭解析的難題,大大提升了蛋白質(zhì)序列的解碼精度和效率。
上海人工智能實(shí)驗(yàn)室、復(fù)旦大學(xué)雙聘青年科學(xué)家 孫思琦:現(xiàn)在的大模型都是從左到右一個(gè)一個(gè)把氨基酸蹦出來,我們的解法是說蛋白質(zhì)的規(guī)律不一定符合人的語言規(guī)律,不一定是從左到右的,我們的方法是直接把所有的氨基酸都預(yù)測(cè)出來。
相比之前的模型,這個(gè)AI模型將預(yù)測(cè)精度提升了45%,速度更是快了80多倍,人們之前無法解析完的海量蛋白質(zhì)序列預(yù)測(cè),現(xiàn)在有望在很短的時(shí)間內(nèi)搞定。
創(chuàng)建蛋白“工具箱”
利用AI設(shè)計(jì)功能蛋白
在更全面地理解蛋白質(zhì)之后,科學(xué)家們還在嘗試一個(gè)更大膽的方向:設(shè)計(jì)功能蛋白。也就是,利用這些蛋白質(zhì)的特性,對(duì)它們像零部件一樣進(jìn)行組裝和設(shè)計(jì),從而滿足我們的各種需求。近期,上海交通大學(xué)研發(fā)的Venus大模型就實(shí)現(xiàn)了這樣的目標(biāo)。
上海交通大學(xué)研發(fā)的Venus模型,可以快速高效地優(yōu)化改造蛋白,滿足各種產(chǎn)業(yè)需求。
上海交通大學(xué)特聘教授 洪亮:我們用的是個(gè)大模型,它實(shí)際上是閱讀了大量的蛋白質(zhì)氨基酸序列組成以及大量的序列組成所對(duì)應(yīng)的功能標(biāo)簽。我們就知道一個(gè)耐受高溫的、耐受高壓的、耐受高酸的高堿蛋白特征是什么,如果一個(gè)普通蛋白沒有這個(gè)特征,我就幫它把這個(gè)特征加上去。
簡單來說,這個(gè)Venus系統(tǒng)具備兩種能力。一種叫AI挖酶,它能在全球最大的蛋白質(zhì)序列數(shù)據(jù)庫中,搜索那些符合特定功能要求的“潛力股”,比如耐胃酸、耐高溫的“超能力蛋白”。另一種叫AI定向進(jìn)化,則是對(duì)已有蛋白進(jìn)行靶向改造,比如提高穩(wěn)定性、增強(qiáng)活性,讓它成為更好用的“功能蛋白”。
為了訓(xùn)練這套模型,研究團(tuán)隊(duì)構(gòu)建了全球最大的蛋白質(zhì)數(shù)據(jù)庫,其中包含近90億條序列、數(shù)億個(gè)功能標(biāo)簽,甚至包括從馬里亞納海溝火山口等極端環(huán)境中采集的耐高溫、耐強(qiáng)壓蛋白序列。這些幾乎涵蓋了整個(gè)自然界的蛋白語料,就是Venus創(chuàng)造蛋白的“工具箱”。
上海交通大學(xué)洪亮課題組博士生 李松:科研人員只需要上傳一個(gè)蛋白質(zhì)序列或結(jié)構(gòu)的數(shù)據(jù)給AI,AI就能在12個(gè)小時(shí)以內(nèi)返回設(shè)計(jì)的結(jié)果,然后實(shí)驗(yàn)人員去實(shí)驗(yàn)驗(yàn)證,并將實(shí)驗(yàn)驗(yàn)證的結(jié)果返回給AI去做一個(gè)模型的微調(diào)。一般經(jīng)過兩到三輪的微調(diào),最后能夠得到一個(gè)優(yōu)勢(shì)的突變體。
科研人員告訴記者,現(xiàn)在有8個(gè)使用Venus設(shè)計(jì)的蛋白已經(jīng)走上了產(chǎn)業(yè)化的過程。比如一款耐堿性抗體,原本生產(chǎn)過程容易失活,如今用AI改造后穩(wěn)定性提高4倍,每年為企業(yè)節(jié)省上千萬成本;還有一款用于急性胰腺炎檢測(cè)的酶,優(yōu)化后成本降低為國際同類產(chǎn)品的10%,且已實(shí)現(xiàn)1000公斤規(guī)模生產(chǎn)。
我們的身體是一個(gè)由蛋白構(gòu)成的精密系統(tǒng)。如今,AI與蛋白質(zhì)研究的結(jié)合讓我們對(duì)生命的理解插上了翅膀,可以更快、更深入地認(rèn)識(shí)、修改甚至是設(shè)計(jì)這些生命的代碼。
總臺(tái)央視記者 張春玲:這次走訪中,我看到的這些新技術(shù)還稱不上“包治百病”的靈藥,但它讓我相信,科技可以讓醫(yī)學(xué)從發(fā)現(xiàn)問題,走向預(yù)見問題;讓治療從及時(shí)止損,走向提前防護(hù);讓健康從命運(yùn)的變量,變成可設(shè)計(jì)的常量。
或許,下一個(gè)10年,我們就能看到越來越多罕見病、疑難病,迎來突破;看到健康長壽的“終極理想”,更近一步。
(總臺(tái)央視記者 張春玲)