人工智能從頭設計了大量全新蛋白質,還獲得了諾貝爾獎,但它們真能發揮作用嗎?

編譯丨王聰

編輯丨王多魚

排版丨水成文

最近幾年裡,蛋白質設計先驅David Baker,以及蛋白質結構預測工具 AlphaFold 的開發者Demis Hassabis和John Jumpe榮獲了科學突破獎、拉斯克獎、引文桂冠獎等科學大獎。

2024年10月9日,他們將科學界最高獎——諾貝爾獎收入囊中,他們三人分享了2024年諾貝爾化學獎。

2021年7月16日,DeepMind公司的Demis Hassabis和John Jumpe等人在Nature發表論文,正式推出了蛋白質結構預測工具——AlaphaFold2,而在同一天,華盛頓大學的David Baker實驗室則在Science發表論文,推出了蛋白質結構預測工具——RoseTAAFold。他們在論文中詳盡細緻地說明了如何做到精確預測蛋白質3D結構的,並將這兩款預測工具開源。

實際上,在此之前的2020年第14屆結構預測的關鍵評估(Critical Assessment of Structure Prediction,CASP)競賽中,AlaphaFold2已經展示了其強大的蛋白質結構預測能力,並震驚了學術界。

而在過去一年裡,至少出現了5項蛋白質設計比賽,參賽者大多使用人工智能(AI)工具,從頭設計出全新蛋白質,以作爲更有效的藥物、工業酶或實驗室試劑。

但蛋白質設計領域的繁榮在很大程度上造成了一些混亂,利用AI工具設計蛋白質的速度遠超在實驗室製造和測試它們的速度,這使得人們很難判斷哪些設計方法或者工具真正有效。

在過去,競賽推動了關鍵科學進展,特別是在蛋白質結構預測領域,例如,AlaphaFold2 就是在第14屆CASP競賽中一戰成名。

而現在,一系列新比賽通過降低進入門檻吸引了來自世界各地的人們進入蛋白質設計相關領域。但一些科學家指出,這些競賽必須克服一些障礙,例如確定要解決哪些問題,以及如何客觀地選出獲勝者。否則,這些競賽反而會對蛋白質設計領域造成損害。

蛋白質設計比賽的部分靈感來自於一場開始於30年前的競賽,這一競賽幫助開啓了生物學人工智能的革命。

這一競賽就是結構預測的關鍵評估(Critical Assessment of Structure Prediction,CASP),該競賽始於1994年,每兩年舉行一次,由馬里蘭大學的計算生物學家John Moult和加州大學戴維斯分校的計算生物學家Krzysztof Fidelis發起,該競賽旨在挑戰從蛋白質的氨基酸序列計算預測其蛋白質三維結構,預測結構與真實結構最接近者獲勝。

2018年,DeepMind 公司(後被谷歌收購)憑藉其第一版蛋白質結構預測工具AlphaFold在當年的CASP競賽中成爲第一名。兩年後,新一代的AlphaFold2表現堪稱炸裂,以至於CASP競賽的發起人John Moult當場宣佈——預測簡單蛋白質結構的問題基本上解決了。

如今,CASP競賽的焦點已經轉移到了新的挑戰上,例如,預測一個複合體中多個相互作用的蛋白質的結構。

現在,許多人希望新出現的蛋白質設計比賽能夠推動蛋白質設計領域的發展,正如CASP競賽幫助激發了蛋白質結構預測的革命一樣,如果沒有CASP競賽,就不會有AlphaFold。

今年6月份,德國慕尼黑工業大學的計算生物學家Burkhard Rost贏得了國際開放科學非營利組織“創新聯盟”(Align to Innovate)舉辦的蛋白質工程錦標賽(Protein Engineering Tournament)。該競賽分爲兩輪,首先,參賽者要預測不同酶變體的特性,在這一輪表現最好的那些團隊在第二輪中嘗試從頭設計一種能夠分解澱粉的酶,通過實驗室驗證來確定最佳設計者。

今年4月份,生物技術公司Liberum Bio和維護蛋白質設計工具Rosetta的科學家團體Rosetta Commons共同舉辦了冬季蛋白質設計遊戲大賽,並宣佈了獲勝者,參賽者被要求重新設計一種現有的蛋白質——一種廣泛用於蛋白質純化的植物病毒酶,以使其分子更高效。

而今年的BioML挑戰賽,則是要求設計出一種用於CAR-T細胞治療的蛋白質,根據設計蛋白與抗原靶點的結合、通過CAR發出信號、激活CAR-T細胞增殖和腫瘤殺傷反應的程度來評選獲勝者。

一項最近推出的蛋白質設計競賽尤爲引人注目——進化2024(Evolved 2024),該競賽的獲勝者將獲得價值25000美元的亞馬遜雲服務以及OpenAI等公司的價值數千美元的服務。對於蛋白質結構預測競賽,對結果的評估很簡單——預測結果與通過實驗解析的真實結構的相似程度。而對於蛋白質設計而言,評估的標準顯然複雜的多,例如,如果要求設計一種蛋白酶,設計出來的酶的活性、穩定性以及對蛋白質的水解效率,都影響對設計結果的評估,因此,需要從多個維度進行評估,這就導致確定獲勝者並不容易。

在Nature發表的一項報道中,今年8月份,蛋白質工程師Alex Naka利用他的筆記本電腦和大約80個基於雲計算的AI處理器,設計了幾十種蛋白質,這些蛋白質旨在靶向抑制腫瘤中發生突變的受體——EGFR(表皮生長因子受體),他選出了其中最有前景的10種設計,參加了一項新發起的蛋白質設計競賽,並登上了排行榜榜首。

然而,9月下旬公佈的競賽結果讓他感到很失望,他設計的這10個蛋白看起來很出色,但沒有1個在實驗室中顯示出效果,147種設計中,只有5個能與目標受體結合,其中甚至有50個設計的蛋白質壓根就無法制造出來。

參考資料:

https://www.nature.com/articles/d41586-024-03335-z