中國科學家運用人工智能算法發現大量全新RNA病毒

IT之家 10 月 10 日消息,IT之家從中山大學官方微信公衆號獲悉,10 月 9 日,中山大學醫學院施莽教授團隊與阿里雲李兆融團隊在《細胞》(Cell)雜誌上發表論文,報告了 180 個超羣、超過 16 萬種全球 RNA 病毒的發現,這是迄今爲止規模最大的 RNA 病毒研究,大幅擴展了全球 RNA 病毒的多樣性,該研究將人工智能技術應用於病毒鑑定,發現了傳統方法未能發現的病毒“暗物質”,探索了病毒學研究的新路徑。

據介紹,傳統的病毒發現方法包括病毒分離和生命組學的生物信息學分析,高度依賴既有知識,面對 RNA 病毒這種高度分化、種類繁多且容易變異的病毒識別效率低。該研究團隊開發的 LucaProt 人工智能算法能夠對病毒和非病毒基因組序列深度學習,並在數據集中自主判斷病毒序列。

據IT之家瞭解,LucaProt 是一種能夠深度學習的 Transformer 模型,在大量學習病毒和非病毒基因組序列後,可以自主形成一套關於病毒的判斷標準,從而在大量的 RNA 測序數據集中挖掘出病毒序列。在測試中,LucaProt 表現出極高的準確性和特異性,假陽性率爲 0.014%,假陰性率爲 1.72%。在與其他病毒挖掘工具的對比中,它也在處理較長序列的方面展現出優勢。

利用 LucaProt,研究團隊對來自全球生物環境樣本的 10,487 份 RNA 測序數據進行病毒挖掘,發現了超過 51 萬條病毒基因組,代表超過 16 萬個潛在病毒種及 180 個 RNA 病毒超羣(相當於門或綱的分類級別),使 RNA 病毒超羣數量擴容約 9 倍。其中 23 個超羣無法通過序列同源方法識別,被稱爲病毒圈的“暗物質”。

在這項研究中,團隊報告了迄今最長的 RNA 病毒基因組,長度達到 47,250 個核苷酸;發現了超出以往認知的基因組結構,展現出 RNA 病毒基因組進化的靈活性;識別到多種病毒功能蛋白,特別是與細菌相關的功能蛋白,進一步表明還有更多類型的 RNA 噬菌體亟待探索。

研究指出,新發現的病毒分佈在地球的各類生態環境中。總體上,落葉層、溼地、淡水和廢水環境的病毒多樣性最高。然而,在南極底泥、深海熱泉、活性污泥和鹽鹼灘等極端環境中,RNA 病毒的多樣性和豐度並不低,甚至在深海熱泉的高溫環境中,仍有 RNA 病毒在活躍複製。

LucaProt 雖然是一個專門爲 RNA 病毒發現設計的模型,但它同時融合了對蛋白質序列和隱含結構信息識別的功能,也可用於蛋白質功能的鑑定。在論文中,研究團隊開源了 LucaProt 模型,並通過在線網站分享給全球科學家。