專訪陳潤生院士:這些領域的交叉人才培養,已被提上新高度

過去的一年裡,全球核酸藥物研發和產業化駛入快車道,基因編輯療法在歐美創新藥市場的商業化落地也預示着基因治療再一次步入全新的起點。隨着生物醫學進入精準醫學時代,我國在大數據分析、組學研究等領域已具備一定優勢,但從引領“解碼”生命構造到率先“征服”疾病,仍面臨臨牀轉化能力不足的瓶頸問題。

“精準醫學研究的基礎是生物醫學大數據,而大數據的‘解碼’需要既精通生物遺傳學又精通人工智能、大數據等信息技術的複合型人才。”中國科學院院士、北京翊博生物集團首席科學家陳潤生在接受第一財經專訪時如是說。

近日,教育部表態要新設5個新醫學類相關專業,其中就包括生物醫藥數據科學。作爲國內第一位講述生物信息學課程的老師,陳潤生表示,而今,數學、計算機和生命科學領域的交叉人才培養已經被我國提上了一個新的高度。

陳潤生認爲,隨着ChatGPT爲代表的人工智能技術進步,生物信息學有望取得變革性突破,但同時也爲複合型人才培養提出了更高的要求。真正能夠推動生命科學進步的複合型人才,不是簡單的學術跨界,而是經過系統性培養後,在生物學和信息學領域都處於行業拔尖水平的科學家。與此同時,他們還要具備臨牀醫學素養和轉化思維,可以將新的疾病研究信息和未滿足的臨牀需求結合起來,切實推動新醫藥研發。

大模型時代,生物信息學進入“快車道”

上世紀90年代,中國參與到後來被稱爲“二十世紀三大科學計劃”之一的人類基因組計劃,承擔了其中1%的任務。其間,陳潤生髮現解析人類的遺傳密碼需要運用信息學手段對基因組數據進行一系列的加工和分析,是一個多學科高度交叉的全新領域,於是,他率先在中國科學院研究生院(中國科學院大學的前身)開設生物信息學課程。

生物信息學是結合生物學、計算機科學和信息技術來分析和解釋生物數據的跨學科的領域。當陳潤生團隊開展生物信息學研究時,該學科在國內外還非常冷門。但三十多年來,生物醫學大數據研究已爲多種難治性和常見性疾病的診斷與治療帶來許多新技術、新方法,如基因診斷、基因治療、靶向藥物等。

在陳潤生看來,至少從幾十年前人類啓動基因組計劃開始,生物學研究就進入大數據時代。但對於如何才能充分解析生物大數據,人類社會在近些年才交出一份較爲滿意的答卷——以大模型爲代表的生成式人工智能。

陳潤生認爲,大模型的出現,爲數據“解碼”提供了一個可靠而高效的平臺。

如果要用一種通俗易懂的方式去描述大模型如何運作,陳潤生認爲可以將其視爲“爲組學數據研究搭建了一個複雜的神經網絡”。

同理,在大模型這個神經網絡中,研究人員可以先通過一遍遍輸入基因組學數據,讓大模型一次次接收並改變數據間連接的參數。等大模型學習到一定次數後,會自發形成“系統收斂”,即實現知識存儲。接下來,大模型再學習轉錄組數據,在大模型中將這兩種組學數據進行融合訓練,繼而大模型就擁有了基因組數據和轉錄組數據相互作用的能力。推而廣之,大模型可以實現“多模態融合”。

“自然語言處理能力和多模態融合,是大模型真正區別於此前AI技術的關鍵。”陳潤生說,過去,基於單模態處理能力,AI技術在生物學領域已具備結構預測的優勢。比如,AlphaFold2可以很好地預測蛋白質的結構,預測精度達到了實驗的90%以上,也說明這種技術是可用的。

隨着大模型出現,在陳潤生看來,通過多模態分析,以整體方式探究生物系統的相互連接,進一步增進了人類對細胞途徑、疾病機制和遺傳變異的理解,推動了精準醫學的發展。“精準醫學研究已成爲新一輪國家科技競爭的戰略制高點,而其基礎就是生物醫學大數據。”

伴隨精準醫學研究的國際角逐愈演愈烈,大模型在全球引發“百模大戰”,陳潤生認爲,首先應該明確的是,儘管人工智能具備預學習和多模態處理能力,但並不意味着可以解放對複合型人才的需求,相反對於生物信息學人才要求更高了;而聚焦到我國生物醫學的發展問題,目前,在大模型的“量”上跑贏了,但在“質”上還落後於全球領先水平;在生物醫學的基礎研究中處於領先水平,但臨牀轉化能力還存在明顯短板。

陳潤生進一步分析,前者是因爲缺少既懂AI又懂理論生物學的複合型人才組成的研發團隊,後者是因爲大學、科研院所等從事基礎科研的場所,往往缺乏內部轉化的接口和外部轉化的生態鏈。

推動臨牀轉化的下一步

陳潤生認爲,儘管做學術跨界的科研人員越來越多,但他們難以真正取代複合型人才。再進一步來說,如果沒有複合型人才構成的研發團隊,只是通過科技企業和生物醫藥企業合作的方式,進行大模型在生物醫藥領域應用開拓,其溝通效率和實際產品的“垂直應用”能力均會大打折扣。

“如果做網絡的人不知道什麼時候機器將知識學好了,做(生物分子)結構的人不知道提供這些知識用來幹什麼,雙方連對對方團隊描述的很多東西都聽不懂,如何合作?如果是這樣的團隊搭建的醫學大模型,即便數量再多,也難以真正及實際科研之需。”陳潤生拋出了這一觀點。

在他看來,真正的複合型人才需要“根基紮實”,從頭開始培養。

陳潤生回顧其學生時代時表示,大學期間,他讀的是生物物理系,但5年時間有4年都是與數學系、物理系和化學系的人一起學習。即高等數學按照數學系的培養模式,高等物理按照物理系的培養模式,高等化學按照化學系的培養模式,直至第五年,他纔開始學習細胞學和胚胎學等。

雖然彼時“生物信息學”作爲一門學科尚未面世,但“這是老一輩教育家培養交叉學科人才的智慧。”陳潤生稱。

雖然當前我國對交叉人才培養愈發重視,但陳潤生也表示,即便是複合型的科研人才,可以承擔源頭創新的科研任務,但大多數情況,也只是臨牀轉化中的一環。對比發達國家,我國在基礎研究階段已有趕超趨勢,但臨牀轉化的道路“道阻且長”,不斷涌現的基礎科研成果,並沒有在成果端得到效率體現。作爲應對,既需要科研人員具備轉化思維,也需要培植一整套生態鏈。單純依靠鼓勵科學家創業,只會是杯水車薪。

尤其是在走進產業界之後,陳潤生更加深刻地體會到,“自己始終只是技術的提供者”,無法憑藉一己之力讓原始發現轉化成一款成熟的產品,最終走向臨牀應用。

他還提到,我國多數的高校和科研院所也缺乏最直接的內部轉化通道。“在歐美國家,基礎研究和轉化之間的連接是比較緊密的。除了科研機構外,高校也會培養一定的保障性機構,作爲轉化的結構,比如做專利申請的律師團隊等。”

臨牀轉化能力的提升,在大數據、大模型時代顯得尤爲迫切。陳潤生提示稱,大模型的出現可能會加劇全球範圍內的知識壟斷,放大創新藥研發的國家間差距。我國已積累了相當體量的基礎研究成果,亟須催生出更多相關轉化產品。在服務於未滿足臨牀需求的同時,實現更多個性化診療數據的積累,反過來繼續推動基礎研究的進步。

此外,隨着我國自主研發的大模型如雨後春筍般不斷出現、迭代,陳潤生建議,還需從國家層面統籌考慮,在保護大模型知識產權的同時,創設更多有利於大模型間銜接整合和數據流通的保障機制,乃至可以建立國家級的生物醫療大模型,以提升大模型的訓練量級。“只有多方協同合作,數據融合才能真正向‘精準醫學’方向邁進。”