政府訓練臺版LLM,應示範付費取得著作權
TAIDE被稱爲「臺版ChatGPT」,啓動近一年,仍未推出正式版。圖/本報資料照片
生成式AI席捲全球,爲了掌握話語權,國科會於2023年4月啓動「可信任人工智慧對話引擎」(Trustworthy AI Dialogue Engine,以下簡稱TAIDE)計劃,投入適合我國語言、文化特性之生成式AI對話引擎的開發。惟從目前其侷限的訓練資料觀之,恐難達到預期的目標。政府主導的大型語言模型(LLM)或應有償取得高品質的著作權作品,提升模型品質,與文化界共創雙贏的結果。
臺灣資源有限,只能使用國際上現有的開源LLM進行優化處理,以增強本土化優勢;TAIDE即使用Meta推出的Llama/Llama 2模型。然而這個被媒體稱爲「臺版ChatGPT」的計劃,啓動近一年來尚未推出正式版,直到日前國科會主委吳政忠才宣佈將在4月中釋出7B模型(可商用版本)。據瞭解,數位部也規劃將在4月下旬廣邀Meta等國際大廠送測,並於5月公佈TAIDE評測結果。反觀民間已陸續推出多個繁中LLM,如華碩集團的福爾摩沙大模型,早在去年9月就已推出FFM-Llama 2的70B大模型。
TAIDE將於4月成爲開源模型,企業或個人可免費使用,並得修改軟體原始碼,透過微調和優化,快速推出新的產品與服務,加速我國產業的發展與創新。因此,TAIDE品質的優劣,攸關臺灣產業的發展。
發展AI大模型四大關鍵:分別是資金、算力、人才與資料,又以資料最爲重要。可惜的是,TAIDE計劃預算僅有2~3億元,相關硬體匱乏,且人才短缺,只能靠優質的訓練資料彌補。
根據TAIDE官方網站資訊,該模型訓練資料包含政府報告摘要、科技大觀園、科學發展月刊、學術會議論文摘要、GRB政府研究資訊系統報告/計劃摘要、光華雜誌、中文維基百科、法規資料庫、教育部《國語小字典》、中央及地方政府機關常見問題Q&A、十二年國教課程綱要、教育部《重編國語辭典修訂本》等。
繁中的訓練資料看似很豐富,但多屬政府公開資料,且部分資料僅使用摘要,佔繁中的資料比重極爲有限,且缺乏代表性。實與其他繁中的模型缺乏差異性,難以期待TAIDE光使用上述資料訓練的模型,如何精確回答有關臺灣的問題?
臺灣其他LLM設法尋求突破,如臺大資工的Taiwan LLM V2訓練時,除抓取網路之外,還額外使用了小說、雜誌以及大量的社羣媒體等資料。根據該模型的介紹,社羣媒體的資料佔總Token的47.32%,內容豐富許多,也較具代表性。不過此係資源有限下的變通作法,並非資料收集的常態。
我們可看看語言偏見同樣嚴重的日本,如何解決日文訓練資料短缺問題。日本以修正《著作權法》,讓LLM得利用有著作權保護的資料進行訓練,大舉擴大日文的訓練資料。前Google臺灣區總經理建議,我國可仿效日本做法。然日本模式雖茁壯了AI發展,卻是以踐踏著作財產權人爲代價,我國不宜貿然師法。
根本問題是,爲何大模型都只想無償使用免費的資料?爲何不以有償方式,爭取著作權人或資料擁有者的授權,取得優質的資料?特別是政府出資建構的繁體中文LLM,並無獲利的壓力,且揹負國家AI發展任務,更應採取不同的方式。我們建議政府應主動與出版商或創作人協商,支付一定的授權費,取得資料使用權,打造出最適合臺灣使用的模型。
我們以爲,政府可先從媒體或研究機構的資料庫着手,蓋相對於書籍,媒體或研究機構多已累積數十年的豐富且深入的中文資料,若能獲取其大量內容,TAIDE將如吃了大補丸,功力立即大增。
值得慶幸的是,已有人注意到研究機構的資料庫,如日前立委詢問中研院可否協助整合中文資料庫,中研院院長廖俊智表示,會在不違反智慧財產權法規限制下,儘量開放中研院資料庫協助訓練AI模型。惟就是因涉及著作權重製限制,才無法使用該院的資料庫內容,廖院長如同委婉地拒絕立委的要求,更彰顯政府介入的必要性。
進入數位時代,傳統文化產業經營日益困難,如社羣媒體與搜尋引擎恣意轉引傳統媒體辛苦報導與評論的內容,閱讀實體版紙媒的人口驟減,《新聞媒體與數位平臺強制議價法》卻還躺在立法院,公平會與數位部也還在紙上談兵的狀態。倘能建立有償支付模式,授權大模型使用其資料有助於增加營收,應可提高權利人分享的誘因。此外,還有示範效果,其他大模型爲搶奪繁中市場,也有可能會跟進爭取媒體授權。
值得欣慰的是,行政院長陳建仁日前宣佈,未來將推動臺灣AI行動計劃3.0,政府投入預算規模將從目前每年120億元再擴大。盼政府能將部分資源用於資料授權上,以促進我國相關產業的發展。