☰

政府訓練臺版LLM，應示範付費取得著作權

TAIDE被稱爲「臺版ChatGPT」，啓動近一年，仍未推出正式版。圖／本報資料照片

生成式AI席捲全球，爲了掌握話語權，國科會於2023年4月啓動「可信任人工智慧對話引擎」（Trustworthy AI Dialogue Engine，以下簡稱TAIDE）計劃，投入適合我國語言、文化特性之生成式AI對話引擎的開發。惟從目前其侷限的訓練資料觀之，恐難達到預期的目標。政府主導的大型語言模型（LLM）或應有償取得高品質的著作權作品，提升模型品質，與文化界共創雙贏的結果。

臺灣資源有限，只能使用國際上現有的開源LLM進行優化處理，以增強本土化優勢；TAIDE即使用Meta推出的Llama/Llama 2模型。然而這個被媒體稱爲「臺版ChatGPT」的計劃，啓動近一年來尚未推出正式版，直到日前國科會主委吳政忠才宣佈將在4月中釋出7B模型（可商用版本）。據瞭解，數位部也規劃將在4月下旬廣邀Meta等國際大廠送測，並於5月公佈TAIDE評測結果。反觀民間已陸續推出多個繁中LLM，如華碩集團的福爾摩沙大模型，早在去年9月就已推出FFM-Llama 2的70B大模型。

TAIDE將於4月成爲開源模型，企業或個人可免費使用，並得修改軟體原始碼，透過微調和優化，快速推出新的產品與服務，加速我國產業的發展與創新。因此，TAIDE品質的優劣，攸關臺灣產業的發展。

發展AI大模型四大關鍵：分別是資金、算力、人才與資料，又以資料最爲重要。可惜的是，TAIDE計劃預算僅有2～3億元，相關硬體匱乏，且人才短缺，只能靠優質的訓練資料彌補。

根據TAIDE官方網站資訊，該模型訓練資料包含政府報告摘要、科技大觀園、科學發展月刊、學術會議論文摘要、GRB政府研究資訊系統報告／計劃摘要、光華雜誌、中文維基百科、法規資料庫、教育部《國語小字典》、中央及地方政府機關常見問題Q&A、十二年國教課程綱要、教育部《重編國語辭典修訂本》等。

繁中的訓練資料看似很豐富，但多屬政府公開資料，且部分資料僅使用摘要，佔繁中的資料比重極爲有限，且缺乏代表性。實與其他繁中的模型缺乏差異性，難以期待TAIDE光使用上述資料訓練的模型，如何精確回答有關臺灣的問題？

臺灣其他LLM設法尋求突破，如臺大資工的Taiwan LLM V2訓練時，除抓取網路之外，還額外使用了小說、雜誌以及大量的社羣媒體等資料。根據該模型的介紹，社羣媒體的資料佔總Token的47.32％，內容豐富許多，也較具代表性。不過此係資源有限下的變通作法，並非資料收集的常態。

我們可看看語言偏見同樣嚴重的日本，如何解決日文訓練資料短缺問題。日本以修正《著作權法》，讓LLM得利用有著作權保護的資料進行訓練，大舉擴大日文的訓練資料。前Google臺灣區總經理建議，我國可仿效日本做法。然日本模式雖茁壯了AI發展，卻是以踐踏著作財產權人爲代價，我國不宜貿然師法。

根本問題是，爲何大模型都只想無償使用免費的資料？爲何不以有償方式，爭取著作權人或資料擁有者的授權，取得優質的資料？特別是政府出資建構的繁體中文LLM，並無獲利的壓力，且揹負國家AI發展任務，更應採取不同的方式。我們建議政府應主動與出版商或創作人協商，支付一定的授權費，取得資料使用權，打造出最適合臺灣使用的模型。

我們以爲，政府可先從媒體或研究機構的資料庫着手，蓋相對於書籍，媒體或研究機構多已累積數十年的豐富且深入的中文資料，若能獲取其大量內容，TAIDE將如吃了大補丸，功力立即大增。

值得慶幸的是，已有人注意到研究機構的資料庫，如日前立委詢問中研院可否協助整合中文資料庫，中研院院長廖俊智表示，會在不違反智慧財產權法規限制下，儘量開放中研院資料庫協助訓練AI模型。惟就是因涉及著作權重製限制，才無法使用該院的資料庫內容，廖院長如同委婉地拒絕立委的要求，更彰顯政府介入的必要性。

進入數位時代，傳統文化產業經營日益困難，如社羣媒體與搜尋引擎恣意轉引傳統媒體辛苦報導與評論的內容，閱讀實體版紙媒的人口驟減，《新聞媒體與數位平臺強制議價法》卻還躺在立法院，公平會與數位部也還在紙上談兵的狀態。倘能建立有償支付模式，授權大模型使用其資料有助於增加營收，應可提高權利人分享的誘因。此外，還有示範效果，其他大模型爲搶奪繁中市場，也有可能會跟進爭取媒體授權。

值得欣慰的是，行政院長陳建仁日前宣佈，未來將推動臺灣AI行動計劃3.0，政府投入預算規模將從目前每年120億元再擴大。盼政府能將部分資源用於資料授權上，以促進我國相關產業的發展。

政府訓練臺版LLM，應示範付費取得著作權

相關資訊