讓用戶吃石頭,給披薩塗膠水,Google AI 搜索瘋了嗎

福無雙至,禍不單行,Google 又又又「翻車」了。

2023 年 2 月,追趕 ChatGPT 的 Bard,公開犯了事實錯誤;2023 年 12 月,Gemini 侃侃而談如同賈維斯,然而視頻經過後期處理;2024 年 2 月,Gemini 生成多種膚色的歷史人物,被批評歧視白人。

這回,厄運降臨到 Google 的看家本領——搜索。海外網友看熱鬧不嫌事大,甚至上演了一波鬥圖狂歡。

被羣嘲的 Google AI 搜索,有種清澈的愚蠢

過去不久的 Google I/O 大會,推出的其中一項功能是 AI Overview(AI 概述)。

顧名思義,AI Overview 在網頁頂部生成綜合多個信源的摘要,同時附有鏈接。

當時,Google 對 AI Overview 很有信心,宣佈當即向所有美國用戶推出,很快也會推廣到更多國家,預計年底覆蓋超過 10 億人。

然而沒過幾天,AI Overview 先在美國用戶這裡翻車了。

自制披薩的奶酪容易掉下來怎麼辦?

Google 建議您,親,往醬汁裡添加約 1/8 杯的膠水即可。特意強調是無毒的,背後原因令人暖心。

Google 並非現編,而是從「美版貼吧」Reddit 一位用戶 11 年前的評論照搬了答案,可惜它讀不懂人類的幽默。

人一天裡應該吃多少石頭補充營養?

Google 沒有反駁問題本身的不合理,一本正經地胡說八道,根據加州大學伯克利分校地質學家的說法,應該一天至少吃一塊小石頭,以便攝入維生素和礦物質。

答案的源頭是 2021 年的一篇「報道」,出自以假新聞和諷刺文章聞名的洋蔥新聞。

AI Overview 也不精通美國曆史,掉進了陰謀論的陷阱,說奧巴馬是第一位穆斯林總統。

一時間,X 等社交媒體掀起了一股抽象的浪潮:曬截圖,比拼誰的 Google 回答最荒謬。

競爭異常激烈,在 AI 的世界裡,前總統從威斯康星大學畢業了 21 次,一隻狗曾在 NBA、NFL 和 NHL 打過球,蝙蝠俠是一名警察。

樂子人扎堆的地方,渾水摸魚和顛倒是非的也不會少。

Google 迴應,大部分 AI Overview 的信息是高質量的,也提供了有用的鏈接供用戶深入瞭解,很多「翻車」例子,問題是不常見的,結果無法重現甚至被篡改過。

比如,一張流傳甚廣的截圖顯示,治療抑鬱症的方法是跳下金門大橋一了百了。事關人命,Google 特意解釋了,這個結果是僞造的。

▲ 被 Google 闢謠的截圖

與此同時,Google 沒有闢謠其他例子,而是把它們作爲改進 AI 的養料。怎麼不算一次人類反饋的強化學習(RLHF)呢?

火眼金睛的網友還發現,之前 Google I/O 精挑細選的演示裡其實也出現了事實錯誤,只不過更加隱蔽。

被問到如何修復卡住的膠片相機,Google 建議打開後門並輕輕地取下膠片,但這樣操作會毀掉照片。

流年不利的 Google,不是第一次在萬衆矚目的公共場合犯錯誤。

2023 年 2 月,Google Bard 在演示時說,詹姆斯·韋伯太空望遠鏡是第一個拍攝太陽系外行星的望遠鏡。事實上,第一張系外行星圖像是在 2004 年拍攝的。一個錯誤,付出市值縮水 1000 億美元的代價。

這次,除了 AI Overview 本身犯錯,還有一個槽點:這個功能,它不好關。一些熱心的開發者,趕製了擴展程序,強制只顯示傳統的搜索結果。

沒有方便的退出機制是 Google 的不對,AI Overview 基於傳統搜索頁面,用戶量極大,萬一有不熟悉 AI 的用戶,盲目信任它的結果並被誤導,後果就不好說了。

「Google 怎麼會錯 30%?」

其實,AI Overview 被曝光的問題並不新鮮。AI 會犯錯,早就是公開的秘密。

如同起到造型作用的「吸菸有害健康」,AI Overview 下方標註着:「生成式 AI 是實驗性的。」ChatGPT 也小字提醒:「可能會犯錯。請覈查重要信息。」

大語言模型的基礎原理是,通過預測下一個單詞或者短語生成概率最大的文本,有時可能會選擇不正確但看似合理的詞語,也就導致了虛假信息或者說「幻覺」。

AI Overview 的胡言亂語也是幻覺的表現,它結合了大語言模型生成的語句和互聯網的鏈接,可以引用信源,但不保證信源的準確。

哪怕用到了 RAG(檢索增強生成)等技術,將檢索系統與生成模型相結合,限制回答問題的範圍,也只能抑制幻覺,而非根治幻覺。

並且,信源本身的可信度存疑。「美版貼吧」Reddit,由網友貢獻內容,而非權威媒體。

今年 2 月,Google 與 Reddit 達成協議,將其內容用於訓練 AI 模型。當時就有人懷疑,會否導致「garbage in, garbage out」(垃圾進,垃圾出)的尷尬情況。

被「幻覺」困擾的不只 Google。去年 5 月,一位網友提問微軟的 New Bing 時,答案明顯錯誤,他點開參考鏈接時發現,作爲引用源的知乎回答,居然也是 AI 生成的,遣詞造句盡顯 AI 風味,速度人力所不可及。

AI 搜索們是如何引用信源的,也是個讓人費解的問題。當我用中文搜索「怎麼給柴犬洗澡」,Perplexity 的信源是搜狐、YouTube、豆瓣日記、B 站,天工是知乎、百度文庫,一時也不知道哪個更爲權威,不敢輕信。

既然 AI 搜索都有幻覺,爲什麼總是 Google 被架在火上烤?

創立於 1998 年的 Google,成爲搜索代名詞的 Google,身爲 AI 巨擘的 Google,拉高了外界的期待,也必須承擔犯錯的後果。

相反,Perplexity 的 CEO Aravind Srinivas 表示,輕裝上陣就是他們的優勢,字裡行間還有些驕傲。

另外,AI 搜索也導致了一個用戶認知上的轉變。

我們以前說「用 Google 搜索」,而介紹搜索的生成式 AI 功能時,Google 自己給博客起的標題是「讓 Google 爲您進行搜索」,主次微妙地倒轉了。

過去,Google 展現哪些鏈接可以回答你的問題。現在,Google 自己用 AI 回答你的問題。

傳播錯誤信息的矛頭,從信源本身,轉移到了引用信源的 Google 身上。這口鍋,Google 不得不背。

AI 搜索在提供事實之外,還有哪些可能性

既然幻覺已然是前提,我們應該換個角度看待 AI 搜索,問自己一個問題:是不是我們的預期出了錯誤?

其實在 AI Overview 被批評前,Google CEO 皮查伊就在近日 The Verge 的採訪中提到過,「幻覺」問題仍未解決,甚至可以說是大語言模型固有的特徵。

他認爲,大語言模型不一定是瞭解事實的最佳渠道,但這不代表大語言模型是個廢柴,非黑即白的思維不可取,比如它可以創造詩歌、引入搜索。

CEO 接受採訪也好,I/O 大會也罷,都是在向用戶傳遞一個理念:不要只把 AI 搜索當作對現有網頁的簡單總結,AI 發光發熱的地方還有很多。

但 AI Overview 沒能讓人滿意,怪不到用戶頭上,相比演示,現在的 AI Overview 並非完全形態,很多功能還沒有上線。

Google 搜索主管 Liz Reid 在 I/O 展示了一個「多步推理」的例子,輸入「找到波士頓最好的瑜伽館,展現優惠信息,以及從燈塔山出發的步行時間」,AI 一步到位,以前要搜索三次的,現在一次就夠了。

同時,AI Overview 未來還將有「規劃」能力,比如要求 AI 策劃三天的晚餐,用戶可以直接拿到一份食譜,並在中途進行細化,加上「素食」等需求,然後導出到文檔。

Google 的思路,和其他 AI 搜索產品殊途同歸——讓搜索更加可視化、交互性和個性化,用人話而非關鍵詞溝通,節省查找信息的時間,回答更加複雜和具體的問題。

秘塔提供簡潔、深入、研究的不同搜索模式,研究模式甚至可以給出大綱和腦圖,生成演示文稿。

Perplexity 可以控制搜索範圍,既能覆蓋整個互聯網,也能按照搜索需求,縮小到學術論文、YouTube、Reddit。

天工將 AI 搜索作爲一個門戶,搭載更多的生產力工具,提供了 AI 速讀、音樂創作等智能體,等於在 AI 搜索之上,又搭建了一個 AIGC 內容創作平臺。

平時的大多數問題,天氣如何,匯率多少,跳轉官網,其實通過簡單的傳統搜索就可以得到答案。

但相對複雜的場景,AI 搜索被寄予了厚望,畢竟它比起 ChatGPT 等多了信源,更加方便查證,比起傳統搜索,又能進行更多的研究、創作、規劃、頭腦風暴。與其說是比傳統搜索更好的百科全書,不如說更有 agent 的形狀。

當然,餅畫得再多,AI 搜索的幻覺還是讓人膈應。爲此有人建議,安全起見,用生成式 AI,別隻看摘要,再用傳統的 Google 搜索檢查一下。所謂風水輪流轉,但大哥還是大哥。