OpenAI 的 Whisper 模型在高危情境竟現“幻覺”

據一份新的報告顯示,研究人員發現,OpenAI 的音頻驅動轉錄工具 Whisper 會編造從未說過的內容,可能會產生危險的後果。

據APNews的報道,該人工智能模型正在編造文本(通常被稱爲“幻覺”),大型語言模型發現自身訓練材料中不存在的模式,從而產生出無意義的輸出。美國研究人員發現,Whisper 的錯誤可能包括種族評論、暴力和虛構的醫療治療。

Whisper 與 ChatGPT 的某些版本相集成,並且是微軟和甲骨文雲計算平臺的內置服務/功能。微軟宣稱,該工具並非用於高風險的場景/情況,不過醫療保健提供者正開始採用該工具來轉錄患者與醫生的諮詢。

Whisper 的製造商宣稱其具有“近乎人類水平的穩健性和準確性”,並且據稱已被 40 個醫療系統中的 3 萬多名美國臨牀醫生所採用。然而,研究人員警告不要採用它,因爲在不同的研究中發現了問題。

在一項關於公開會議的研究中,密歇根大學的一名研究人員發現,在檢查的每 10 個音頻轉錄裡,有 8 個出現了 Whisper 的幻覺。同時,一名機器學習工程師在超過 100 小時的轉錄中發現約一半存在幻覺,第三位開發人員在他利用 Whisper 創建的 26000 個轉錄中,幾乎在每一個裡都發現了幻覺。

在過去的一個月裡,Whisper 從開源人工智能平臺 HuggingFace 被下載了超過 420 萬次,該工具是這個網站上最受歡迎的語音識別模型。研究人員通過對卡內基梅隆大學主辦的存儲庫 TalkBank 的材料進行分析,確定 Whisper 產生的 40%的幻覺有可能是有害的,因爲說話者被“誤解或歪曲”。

在美聯社的此類片段示例中,一位發言者描述了“另外兩個女孩和一位女士”的情況,而 Whisper 編造出了關於種族的評論,指出“另外兩個女孩和一位女士,嗯,她們是黑人”。在另一個例子中,該工具創造出了一種虛構的藥物,叫做“超活化抗生素”。

普林斯頓大學教授阿隆德拉·尼爾森告訴美聯社,像這類已發現的錯誤可能會產生“非常嚴重的後果”,尤其是在醫療保健環境中,因爲“沒有人希望被誤診”。

有人呼籲 OpenAI 解決這個問題,前員工威廉·桑德斯告訴美聯社,“如果你把這個技術/產品推出來,而人們對其功能過於自信,並將其整合到所有其他系統中,這是有問題的。”

雖然許多用戶預計人工智能工具會犯錯或拼寫錯誤,但研究人員發現,其他程序出錯的概率跟 Whisper 一樣高。

谷歌的人工智能概述 在今年早些時候遭到了批評,當時它建議使用無毒膠水防止奶酪從披薩上掉下來,並引用了 Reddit 上的一條諷刺評論作爲來源。

蘋果首席執行官蒂姆·庫克 在一次採訪中承認 ,人工智能產生幻覺的情況可能會成爲未來產品的一個問題,包括 蘋果智能套件 。庫克告訴《華盛頓郵報》,他對於這些工具是否可能產生幻覺的信心並非十足。

“我認爲我們已經做了我們所知的一切,包括深入思考我們所使用的技術在相關領域的完備程度,”庫克說。

儘管如此,公司仍在推進人工智能工具和程序的開發,類似於 Whisper 所出現的幻覺仍然是一個普遍存在的問題。至於 OpenAI 針對幻覺的迴應,它建議不要在“決策環境中使用 Whisper,在這種環境中,準確性方面的缺陷可能會致使結果出現明顯的缺陷”。