認知與技術領航,OPPO何以讓AI更進一步

AI手機到底應該是什麼樣?面對這個問題,或許有不少朋友會下意識地看向iPhone,“蘋果是怎麼做的”也儼然成爲了手機圈一個風尚。只可惜蘋果在AI領域起了個大早、趕了個晚集,就給了Android陣營先人一步的機會。在剛剛舉行的ODC24上,OPPO方面向外界展示了成爲AI手機旗手的底氣。

用AI來爲手機賦能並不新鮮,自2011年的蘋果Siri就已開始初見端倪,再到2017年、2018年,隨着自然語言理解(NLP)技術的“白菜化”以及神經網絡處理器(NPU)出現,國內廠商也扎堆做起了智能語音助手,併成爲當時手機廠商在新品發佈會上的必講環節。

只可惜僅用了短短兩年時間,應用場景有限、效率不高等問題的陸續出現,使得用戶主動冷落了智能語音助手。直到2023年,隨着生成式人工智能的出現,手機AI又有了新的故事可講,此次OPPO就在ODC24上用系統級AI重構了AI與操作系統的關係。

OPPO軟件工程事業部總裁唐凱在此次活動中就提及,AIOS有三個階段,分別是應用AI化、系統AI化,以及AI即系統。過去,AI在手機操作系統裡只能錦上添花、侷限於單點功能,比如曾經的智能語音助手,就只擅長處理諸如定鬧鐘、打電話、打開App等簡單操作,面對複雜指令時就會陷入“雞同鴨講”的死循環。

顯而易見,曾經作爲手機裡AI元素集中體現的智能語音助手,當時就只能起到一個嚐鮮的作用。而在此次ODC24上亮相的“超級小布助手”則是嵌入操作系統底層、深度整合的系統級體驗,AI功能不僅僅體現在“超級小布助手”上,而是滲透到了系統的各個層級。

例如,OPPO推出的“一鍵問屏”功能,就是多模態交互能力的結晶,不僅要“看”、還要“聽”,然後根據用戶的語音和視覺反饋來做出反應。這背後需要OPPO的AI平臺調用視覺模型、音頻模型,以及大語言模型協同工作,從而實現圖像和音頻識別與自然語言輸出。

不僅如此,OPPO藉助SenseNow框架讓一鍵問屏實現了“邊看邊說”的功能,並且這可一點都不簡單。要知道多模態大語言模型有一個重要的課題,即怎麼對齊不同文本、圖像、音頻等不同模態。由於不同模態獲取的特徵差異巨大,且模態複雜導致出現過擬合現象,最終會讓多模態模型的效果不如單模態結果。

OPPO此次推出的SenseNow智慧框架,就憑藉強大的多模態直覺交互能力,能做到在對文本、圖像、音頻解碼生成的同時,進行跨模態的特徵同步。用OPPO方面的說法,用戶在瀏覽內容時可以立即詢問,AI也能實時響應,而不再需要在不同模態之間來回切換操作。

將各個模態的信息和交互整合到一起,OPPO顯然有着更多的意圖。用OPPO AI中心產品總監張峻的話來說,“我們的目標是讓AI助理像真人助理一樣,能夠'邊看、邊說、邊做'”。從最初的單線程進化到多線程,OPPO不是爲了做AI、而打造系統級AI,而是讓AI提升用戶的體驗,塑造一個交互和智能隨心,專屬陪伴、安全可信的個人化助理。

不過想要讓AI助手更像真人助理,單純整合不同模態的大模型是不夠的,AI智能體纔是關鍵。一鍵問屏功能儘管優秀,但也不是十萬個爲什麼,真正能讓用戶感知到AI確實有用,還得能自主執行任務的AI智能體。在ODC24上,OPPOF就已經展示了用“超級小布助手”訂機票的DEMO,但他們也坦言,要實現完全自動化的操作確實有門檻。

以訂機票爲例,據張峻透露,技術上我們已經具備了一些能力,例如意圖識別和應用喚醒,現在小布就支持說“給某某在微信裡發個紅包”,但要進一步實現“完全自動預訂”還需要解決用戶偏好問題,比如選哪家航空公司、什麼時間的航班,這些就涉及到用戶的信任和個性化理解。

OPPO方面希望AI能夠逐步增強對用戶偏好的理解、加強AI智能體的記憶能力,從而讓每一個“超級小布助手”都對它們的主人瞭如指掌。儘管AI智能體的記憶力固然重要,但更重要的是行動力。對此OPPO方面也展望了AI手機的未來,無論是傳感器的佈局、還是芯片平臺都會進行相應升級,以支持系統級的AI功能。

縱觀此次ODC24,OPPO要表達的並不是重做一個“小布”,而是希望以智能手機作爲計算平臺、用AI來賦能用戶的科技生活。

【本文圖片來自網絡】