智能的人工智能:愛編造事實卻不拒難題
隨着每一種算法被創建,大型語言模型(LLM)變得越來越智能和強大。
這意味着它們可以提供更準確的信息。但新的研究表明,更智能的人工智能聊天機器人實際上變得不太可靠,因爲它們更有可能編造事實,而不是拒絕回答它們無法回答的問題。
在一項新的研究中,研究人員對一些行業領先的 LLM 進行了檢查,包括 OpenAI 的 GPT、Meta 的 LLaMA 以及由研究小組 BigScience 開發的開源模型 BLOOM。
人們發現,在很多情況下,它們的回答變得更準確,但總體而言,與舊模型相比,它們的可信度更低,給出錯誤答案的比例更高。
“如今它們幾乎回答所有問題。這意味着有更多正確的答案,但也有更多不正確的答案,”該研究的合著者、西班牙瓦倫西亞人工智能研究所的研究員何塞·埃爾南德斯 - 奧拉洛(José Hernández-Orallo)說。
但據蘇格蘭格拉斯哥大學的科學與技術哲學家邁克·希克斯所言,人工智能只是在佯裝比自身實際情況更博學這一方面表現得愈發出色。
這些模型在諸如數學和地理等主題上接受了測驗。它們還被要求執行任務,例如按照特定順序列出信息。
總的來說,規模更大、功能更強的模型給出的回答最爲準確,但遇到較難的問題時,它們容易出錯,正確率較低。
一些堪稱最大“說謊者”的是 Open AI 的 GPT-4 和 o1。它們幾乎會回答所被問到的每一個問題。
但在大多數情況下,所有被研究的大型語言模型似乎都在朝着那個方向發展。
即使是最簡單的問題,LLaMA 系列的模型沒有一個能達到 60%的準確率水平。
總之,人工智能模型越大、越複雜,給出錯誤答案的比例也就越大。
研究人員表示,人們忽略了人工智能模型在簡單問題上的出錯情況,因爲他們對其處理更復雜問題的準確性印象很深。
這項研究還說明了人類是如何看待人工智能的迴應的。
一組參與者被指示判斷聊天機器人的回答是準確還是不準確,他們的判斷錯誤率在 10%到 40%之間。
研究人員表示,把大型語言模型編程成不太願意回答所有問題,這或許是解決這些問題的最簡捷辦法。
“你可以設置一個閾值,當問題具有挑戰性時[讓聊天機器人]說。‘不,我不知道。’埃爾南德斯 - 奧拉洛說道。
然而,人工智能公司可能不太願意以這種方式對其聊天機器人進行編程,因爲這可能會向公衆揭示該技術的侷限性。