科學人/打造最臺語言模型! 為何無法從0研發?AI律師、家教將實現?

繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。AI示意圖。 鏵德/提供

繁體中文大型語言模型(LLM)在去年由於政治因素,一度鬧得沸沸揚揚。今年4月15日傳出好消息,由國家科學及科技委員會(國科會)主導開發的「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine, TAIDE)開源釋出TAIDE-LX-7B模型,是可商用版本。3月上旬,產業界也傳捷報,隸屬於聯發科技集團的聯發創新基地開源釋出MediaTekResearchBreeze-7B。

然而,不只有產官界投入研發,學界其實也有一組研究團隊正緊鑼密鼓訓練,標榜爲最有臺灣味的LLM,那就是臺灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM。

簡單來說,打造大型語言模型有兩種做法。一是從零開始研發,例如OpenAI開發的「生成式預訓練轉換模型」(GPT),另一是選用既有的大型語言模型,例如Meta公司釋出的開放源碼LLaMA模型,再透過特定資料增強專才能力。目前臺灣各界打造的繁體中文LLM,大多是以開源模型爲基礎,運用各自收集的資料庫進行後續的訓練程序,可分成三個階段:連續預訓練(continuous pre-training, cPT,以資料庫進行學習)、監督式微調(supervised fine-tuning, SFT)、基於人類回饋的增強學習(reinforcement learning from human feedback, RLHF,上網蒐集回饋)。

臺灣大學資訊工程系副教授陳縕儂及其博士生林彥廷等人開發的Taiwan-LLM,是以LLaMA模型爲基礎進行全參數微調,用公開的法律文件、新聞時事、社羣討論做爲繁體中文訓練資料,來增強繁體中文能力並呈現臺灣文化。路透

Taiwan-LLM是以LLaMA模型爲基礎進行全參數微調,用公開的法律文件、新聞時事、社羣討論做爲繁體中文訓練資料,來增強繁體中文能力並呈現臺灣文化。陳縕儂指出,例如發票載具就是一種在地化的文化用語,如果AI模型聽得懂這個詞彙,在應用情境上會更貼近我們的生活。然而,公開取用的繁體中文文本其實來源很少(這也是無法從零開始研發LLM的原因之一),並且受限於著作權,例如小說及書籍必須經過出版社授權。林彥廷說明,不論繁體中文或簡體中文,在網路上,詐騙和內容農場及色情訊息的佔比特別高,這些資料的品質很差,根本不能使用。因此他在後續訓練時,從資料源頭控管,沒有使用非營利組織Common Crawl免費提供的公開網路爬蟲資料集,省去不少微調工作。

打造模型要兼顧彈性

LLM的發展很快,相關技術日新月異。陳縕儂表示,當Meta釋出LLaMA 2,Taiwan-LLM也升級到新版本。這領域不斷推陳出新,若有擁有好的資料集,就可與時俱進,切換到更有彈性的架構。例如Mistral AI推出「混合專家模型」(Mixture of Experts, MoE),透過把單一任務拆分成多個子任務,再交由多個專家網路分頭處理。也就是說,一般模型就像一位專家,MoE則有多位專家組成一個團隊,每次派幾位專家處理不同任務。Taiwan-LLM從開發至今經歷了三個主要版本:Taiwan-LLM-v1.0-13B針對超過50億個詞元(token)進行預訓練,並針對49萬組繁體中文對話進行調整;Taiwan-LLM-v2.0-7B則提高到超過300億個單詞,以及100萬組繁體中文對話;而Taiwan-LLM-v2.0-13B是以130億參數量(即名稱中的13B)的模型進行訓練。

林彥廷指出,在資料蒐集上有兩組人馬分頭行動。一組人不斷擴充資料庫,依據一些小規則與政治立場去收錄資料,這有點像「貓抓老鼠」,因此從文本來源判斷會是比較保險的做法,避免把品質不好的資料餵給模型,減少後續調整;這個階段在訓練模型上所需的時間比較長,也需考量災難性遺忘,也就是AI模型學習新任務時,既有的性能反倒下降。

另一組人持續製作問答,準備問答資料比較費時,但訓練模型的時間相對短。此外,也有一些合作伙伴願意投入訓練資源,例如CPU時間,他們認爲Taiwan-LLM這套開源模型對於自家後續應用是有幫助的,因此協助測試模型,回饋需要改善的面向,陳縕儂團隊再補強這面向的資料。

合作伙伴之一是日商優必達(Ubitus),優必達是雲端串流解決服務商,提供雲端運算能力來協助開發Taiwan-LLM。因爲Taiwan-LLM的優勢在於開源模型,而且符合臺灣當地的應用情境。使用者與業者可以讓開源模型在自家電腦或伺服器運行,避免隱密資料外流,再者可依據自家需求調整模型,後續還可客製化,例如AI新聞主播。

那麼是否很快就會出現AI律師、AI家教等AI產品呢?陳縕儂分享,當LLM讀完法條後,並不會變成AI律師,因爲它需要的可能是司法院沒有公開的錄音和逐字稿等記錄,即使有判決書,那等同於只看結論,缺少了重要的答辯過程。所謂的AI律師,需要的可能是臺灣各大律師事務所的資料,因此LLM與資料的結合非常重要,這就像讀完書的法律系畢業生必須實際工作過,纔有實務上的能力。AI家教也是同樣的情況,需要的不只是課本,也需要評量題目與教學方法。

模型、資料、成本

因此業界在評估AI導入時,需要思考的是模型與資料的垂直整合,也就是拚速度和整合度。另一個需要思考的是成本,LLM與使用者互動的表現可能很好,但傳統技術或許更加成熟。陳縕儂解釋,例如數位客服常遇到的疑問可能有10種,用分類器技術就可以處理,其餘情況再交由LLM應對,如果所有情況都直接讓LLM生成,可能會遇到許多不可控的情況,反而引發公關危機。

然而,現今有一股風潮,認爲使用的模型越大越好,但越大的模型意味着需要更多算力及更長的計算時間,所花費的成本勢必也因此提高,企業必須在成本和效力上找尋平衡。

在資料與模型之外,陳縕儂認爲,評測標準也是當前業界的一大痛點。大多數研究都是以英文爲主,所以英文資料庫非常多樣,但繁體中文的資料庫很少,如何依據資料庫建立動態的評測系統更是一大挑戰。林彥廷說明,依據我們團隊的經驗,預測人類的偏好大約落在七成,因此遇到使用者的偏好時,再好的語言模型也可能「表現不好」。

在繁體中文LLM的開發路上,產官學界在模型、資料庫、評測系統上投入心力、克服萬難。然而,這條路要走得順、要走得遠,仍然需要臺灣各大產業的投入,纔有可能打造多元的應用,就如AI律師、AI家教、AI客服等AI產品。這一切,都將促使我們繁體中文的AI應用應用更加符合自身需求。

延伸閱讀

(本文出自2024.05.01《科學人》網站,未經同意禁止轉載。)