科學人/並非毫無用處!一文看次世代定序如何做到疾病預防與治療

行動基因生技股份有限公司NGS檢測過程。聯合報系資料照/記者曾原信攝影

隨着次世代定序(next generation sequencing, NGS)技術的發展,越來越多的研究證實,基因組中佔98%的非編碼區域,也有許多部份都扮演重要的基因調控角色,它們也如編碼區會受到相當程度的演化壓力,且具有高度的序列保守性,並非無用的垃圾。非編碼區域坐落着種類繁多且數量龐大的非編碼RNA (non-coding RNA, ncRNA)。由於強調個體差異的「精準醫療」(precision medicine)時代來臨,在研擬治療策略,考量個體間的特徵差異除了基因,還有非編碼區域位點和ncRNA也不可或缺。以下將介紹DNA、ncRNA、基因、疾病和精準醫療之間的關係。

龐大的非編碼RNA家族

核糖核酸(RNA)產物的集合體統稱爲轉錄體(transcriptome)。RNA產物的種類繁多(見33頁上方圖示),一般可粗分成:編碼RNA與非編碼RNA。編碼RNA也稱爲信使RNA(mRNA),會轉譯成蛋白質執行生物所需的功能;反之,ncRNA則不會(雖然極少數ncRNA在特殊情況下,也可能會轉譯成小片段有功能的蛋白質)。常見的「基因」指的是可轉錄出mRNA的遺傳序列,但廣泛的定義裡也包含ncRNA,爲了不造成混淆,本文中基因指的是mRNA。

ncRNA可細分多種,通常依序列長度是否達200個核苷酸爲界概分成:短鏈ncRNA與長鏈非編碼RNA(lncRNA)。前者包括:微RNA(micro RNA, miRNA)、轉移RNA(transfer RNA, tRNA)、核糖體RNA (ribosomal RNA, rRNA)、小干擾RNA (small interfering RNA, siRNA)、PIWI-交互作用RNA(Piwi-interaction RNA, piRNA)和小核RNA等。後者包括:不和基因重疊的長鏈ncRNA (long intergenic ncRNA, lincRNA)、與基因相似卻無法轉錄或轉譯的假基因(pseudogene)、能和mRNA序列互補的反義RNA (antisense RNA, asRNA)、分子間剪接RNA (trans-spliced RNA, ts-RNA ),以及由反式剪接(back-splicing)形成的環狀RNA (circular RNA, circRNA)等。

RNA產物的分類:此爲示意圖,光是ncRNA就種類繁多。圖/科學人雜誌提供

由上圖可看出,RNA家族浩繁,在此特別強調,序列長度的分界只是粗略的分類,也有某些lncRNA可能小於200個核苷酸。

ncRNA和基因的關係

雖然定義上的ncRNA不會轉譯成蛋白質,無法直接執行生物所需的功能,但越來越多ncRNA被證實,能借由和各式各樣的生物分子(可以是DNA、RNA或蛋白質)產生交互作用而調控目標基因的表現量,進而影響目標基因的功能。ncRNA調控基因的形式非常複雜且多樣,有興趣的讀者可進一步閱讀相關回顧性論文。在此僅依據ncRNA和其調控的目標基因在基因體序列的距離,極爲簡略地把調控基因的型式分成兩類:近端調控與遠端調控(見34頁圖)。

近端調控顧名思義,就是調控的ncRNA坐落在目標基因附近(通常在轉錄起始點5'端上游),藉由和某些生物分子交互作用而調控此目標基因的mRNA表現量。遠端調控則是ncRNA和目標基因二者坐落在基因體序列上的距離很遠,甚至在不同染色體上。在此舉三個例子,第一個例子是lncRNA先調控某特定的轉錄因子(一種蛋白質),影響該轉錄因子原本調控的基因。第二個例子是miRNA利用其RNA序列的互補性,結合目標基因的mRNA,抑制其轉譯功能並進而降解,達到調節該目標基因的表現量。第三個例子是不同的ncRNA間相互調控,再影響其下游的基因表現量,例如有的lncRNA會和miRNA結合產生海綿效應(miRNA sponge),把miRNA吸住以影響miRNA的作用。最後影響原本miRNA所調控的基因。

在此特別介紹lncRNA中的circRNA,有別於其他類型的RNA屬於線性RNA,circRNA因其環狀的架構,比其他RNA穩定不易被降解。因此,一旦circRNA和miRNA交互作用產生海綿效應,影響該miRNA原本調控的基因的效應會更持久。我們可以想像circRNA、miRNA、mRNA之間,可以形成相當複雜且精巧的上下游調控關係。

各有巧妙:ncRNA的近端調控,lncRNA位於目標基因的上游附近,透過和生物分子交互作用來調控mRNA的表現量。遠端調控的(例一)中,lncRNA先和某轉錄因子交互作用,來調控該轉錄因子原本調控的mRNA;(例二)則是miRNA利用RNA序列的互補性結合mRNA,而造成mRNA降解;在(例三)中,miRNA是吸附在環狀RNA上(海綿效應)。進而影響miRNA原本調控的mRNA。

DNA、ncRNA、基因和性狀間的關係

近年的大型全基因體關聯分析研究(genome-wide association studies, GWAS)突飛猛進,搭配臨牀醫療等資料大數據分析,可望在DNA序列上找到與疾病預防、進程及治療相關的基因變異位點。

強強聯手:GWAS 分析可研究DNA變異位點與性狀或疾病的關聯(上圖)。這裡以自閉症和某DNA變異位點(基因型A/G)爲例,若自閉症患者都是A、健康者都是G,則此位點可做爲自閉症生物標誌(此爲示意圖,實際上疾病標誌不會如此明顯)。eQTL 分析則研究DNA變異位點與基因或ncRNA表現的關聯(下圖),亦即某DNA變異位點調控基因表現量,此圖中的三種基因型(AA、AG、GG)與基因表現量呈顯著正相關。

以自閉症的GWAS研究爲例(見上圖),研究單位蒐集有病症和無病症個體的血液樣本(樣本數皆達萬人以上)進行基因型鑑定(genotyping)或NGS基因體定序,找出基因變異位點,然後利用統計模組分析,篩出和自閉症有顯著相關的基因變異位點(GWAS變異位點),這些位點便被視爲反應自閉症狀態的指標。如果這些GWAS變異位點坐落在已知的基因或ncRNA的範圍內,便能直接影響該基因、ncRNA的功能和調控效應,該基因或ncRNA即爲造成自閉症的高風險標的,科學家可對此進一步探討疾病機制。

但篩出的GWAS變異位點,很多不是坐落在已知的基因或ncRNA所在的範圍內。因此,想要了解GWAS變異位點如何影響該疾病的機制,比設想的更復雜。可能的方式是,除了對個體的血液樣本進行DNA變異位點分析外,也對個體的組織樣本(以自閉症研究爲例,是個體過世後的腦組織)抽取RNA進行NGS定序,再利用統計模組分析,篩出和基因或ncRNA的表現量高度相關的DNA變異位點,從而找到該變異位點所調控的下游基因或ncRNA。這樣的變異位點稱爲表現數量性狀基因座(expression quantitative trait loci, eQTL)分析(見35頁下圖)。

eQTL可能距離所調控的基因或ncRNA很近(cis效應),也很可能很遠(trans效應)。一般來說,cis效應會比trans效應強。可想而知,eQTL研究除了需要DNA定序資料外,還要來自同一個體中組織樣本的RNA資料,樣本收集的困難度大。

總結一下,GWAS分析DNA變異位點和性狀(或疾病)間的關係,eQTL分析DNA變異位點和表現型(例如基因或ncRNA表現量)的關係。進一步把二者的分析整合,即爲全轉錄體關聯分析研究(transcriptome-wide association study, TWAS)。如此,藉由GWAS變異位點定義顯著和性狀(或疾病)相關的基因。

如前面所述,ncRNA與基因間亦存在各種形式的交互作用,想要了解造成某個性狀(或疾病)的分子機制,就需要去釐清DNA變異位點、ncRNA、基因、性狀(或疾病)間調控的因果關係。這種推論各種因子和某性狀(或疾病)調控因果關係的研究稱爲因果生物學。過去,這樣的研究主要面臨三個挑戰:(1)缺乏同時具備同一個體的多體學資料(multi-omics data),如基因組和轉錄體定序等不同型態的資料;(2)因需同時具多種型態的資料,樣本數大小受限,容易產生統計偏差,評估的顯著性亦受限;(3)僅能評估各因子間的關係,難以推論因果。

前面的兩個挑戰的主要原因,是樣本來源與定序成本。隨着NGS技術進步,定序錯誤率降低、定序深度提高以及價格降低,針對大樣本數中的每一個體同時做多體學定序越來越可行。至於第三個挑戰,在於不同變數中,潛藏許多不易估計的干擾因子,容易造成評估失準。不過同樣地,當樣本數越大,更有機會藉由統計模組將潛在的干擾因子控制住,得到較可靠的因果推論。

NGS多體學資料和精準醫療

即使同一物種,不同個體間仍存在某種程度的基因組差異性,這種差異可能牽一髮而動全身,造成ncRNA基因間的調控關係發生變化,影響個體間的性狀、對疾病的反應(表現出來的症狀),以及對藥物施用後的療效不同。以癌症爲例,個體間的差異,有可能對於癌症患者有不同的預後與風險性,例如不同的復發時間、整體存活期、抗藥性等。因此,對於初次被診斷罹癌的病人,如果能預先評估其預後與風險性,便能協助醫師訂定治療策略,這就是精準醫療的精神。

因此,許多科學家嘗試建立預估癌症風險性的預測器。這裡我們以建立癌症復發預測器爲例,大略流程如下:首先需要一個訓練組(training set),這個訓練組需包括夠大的樣本數,每位病患的生理資料(包含:年齡、性別、人種等)、NGS多體學資料(例如DNA變異位點、ncRNA表現量、基因表現量)、以及預後情況(在此爲復發時間,time to relapse)(見下圖)。

精準預測:利用NGS多體學資料,可預測癌症復發。本例假設初始特徵數目爲5 萬,最後可篩選出和癌症復發高度相關的10個特徵。合格的預後模組必須在訓練組與測試組中都能準確預估復發時間。每位首次診斷出罹癌的病患,在預測器輸入10個特徵,便可得到復發風險係數與可能復發時間。其中預測正確率(AUC)等於1,代表100% 正確。

這些生理資料和NGS多體學資料便是所謂的「特徵」,我們可以設計統計模組或者加上機器學習技術,從幾萬筆的樣本資料中,找出和病患預後情況,最顯著相關的特徵。上圖的例子就是經過訓練找到一組具有十個特徵的復發預測器,爲了測試該預測器的正確性,會需要一組或多組兼具上述資料的病患樣本當測試組(testing set)。如果該預測器在訓練組和測試組「都」具有高正確率(超過70%,或者至少60%),該預測器的效能便可視爲具穩健性(robustness)。

最後當初次被診斷罹癌的病人,只要將該病患這十個特徵值輸入預測器,便可以預估其復發的風險係數以及可能的復發時間。當然,這個預測器的正確性會和訓練組的樣本大小、用以訓練的特徵種類與特徵個數、篩選顯著特徵的邏輯或演算法等相關。而實務上,由於個體間以及樣本來源(樣本取得/處理方式、定序策略等)差異,預測器要在不同測試組間都具高正確率是很困難的。特別強調,不同人種訓練出來的預測器差異可能很大,同一個預測器可能不適用於預測不同人種。這也是現在各國成立各自生物樣本庫的原因。

精準醫療勢在必行

生物體內如何執行功能,牽涉到極爲精密而錯綜複雜的調控網路,基因表現量受到DNA、RNA等許多層面上的因子所調控,基因和基因間往往也互相調控。網路中的任何環節,無論先天個體間差異或後天發生變化,都可能造成不一樣的性狀。藉由NGS多體學資料,設計大數據分析流程,建立預測模組,成爲精準醫療未來的必然趨勢。

DNA序列的集合體統稱爲基因組,而人類的基因組總長約有3 × 109個核苷酸(nucleotide)。第一個令人好奇的問題是,人類有多少個基因(gene)?在第一套人類全基因定序完成前,答案一直衆說紛紜。目前普遍認爲,人類約有2萬1000個可以轉譯成蛋白質的基因。緊接着另一個問題是,人類的基因組如此龐大,可編碼爲蛋白質的區域居然只佔2%,那其他部份是做什麼呢?

延伸閱讀

(本文出自2024.07.01《科學人》網站,未經同意禁止轉載。)