AI智能體,人工智能的“增程模式”?
在人工智能的發展長河中,我們正站在一個激動人心的轉折點。
想象一下,未來的人工智能什麼樣?只需簡單一個指令,它們便能領悟並執行復雜的任務;它們還能通過視覺捕捉用戶的表情和動作,判斷其情緒狀態。這不再是好萊塢科幻電影中的場景,而是正逐步走進現實的AI智能體時代。
早在2023年11月,微軟創始人比爾·蓋茨就發文表示,智能體不僅會改變每個人與計算機交互的方式,還將顛覆軟件行業,帶來自我們從鍵入命令到點擊圖標以來最大的計算革命。OpenAI首席執行官山姆·奧特曼也曾在多個場合表示:構建龐大AI模型的時代已經結束,AI智能體纔是未來的真正挑戰。今年4月份,AI著名學者、斯坦福大學教授吳恩達指出,智能體工作流將在今年推動AI取得巨大進步,甚至可能超過下一代基礎模型。
類比智能電動汽車,猶如其在新能源技術應用和里程焦慮之間尋找到某種平衡的增程路線一樣,AI智能體讓人工智能進入了“增程模式”,在AI技術和行業應用之間儘可能達成新的平衡。
被看好的AI智能體
顧名思義,AI智能體就是具有智能的實體,能夠自主感知環境、做出決策並執行行動,它可以是一個程序、一個系統,也可以是一個機器人。
去年,斯坦福大學和谷歌的聯合研究團隊發表了一篇題爲《生成式智能體:人類行爲的交互式模擬》的研究論文。在文中,居住在虛擬小鎮Smallville的25個虛擬人在接入ChatGPT之後,表現出各種類似人類的行爲,由此帶火了AI智能體概念。
此後,很多研究團隊將自己研發的大模型接入《我的世界》等遊戲,比如,英偉達首席科學家Jim Fan在《我的世界》中創造出了一個名叫Voyager的AI智能體,很快, Voyager表現出了十分高超的學習能力,可以無師自通地學習到挖掘、建房屋、收集、打獵等遊戲中的技能,還會根據不同的地形條件調整自己的資源收集策略。
OpenAI曾列出實現通用人工智能的五級路線圖:L1是聊天機器人;L2是推理者,即像人類一樣能夠解決問題的AI;L3是智能體,即不僅能思考,還可採取行動的AI系統;L4是創新者;L5是組織者。這其中,AI智能體恰好位於承前啓後的關鍵位置。
作爲人工智能領域的一個重要概念,學術界和產業界對AI智能體提出了各種定義。大致來說,一個AI智能體應具備類似人類的思考和規劃能力,並具備一定的技能以便與環境和人類進行交互,完成特定的任務。
或許把AI智能體類比成計算機環境中的數字人,我們會更好理解——數字人的大腦就是大語言模型或是人工智能算法,能夠處理信息、在實時交互中做出決策;感知模塊就相當於眼睛、耳朵等感官,用來獲得文本、聲音、圖像等不同環境狀態的信息;記憶和檢索模塊則像神經元,用來存儲經驗、輔助決策;行動執行模塊則是四肢,用來執行大腦做出的決策。
長久以來,人類一直在追求更加“類人”甚至“超人”的人工智能,而智能體被認爲是實現這一追求的有效手段。近些年,隨着大數據和計算能力的提升,各種深度學習大模型得到了迅猛發展。這爲開發新一代AI智能體提供了巨大支撐,並在實踐中取得了較爲顯著的進展。
比如,谷歌DeepMind人工智能系統展示了用於機器人的AI智能體“RoboCat”;亞馬遜雲科技推出了Amazon Bedrock智能體,可以自動分解企業AI應用開發任務等等。Bedrock中的智能體能夠理解目標、制定計劃並採取行動。新的記憶保留功能允許智能體隨時間記住並從互動中學習,實現更復雜、更長期運行和更具適應性的任務。
這些AI智能體的核心是人工智能算法,包括機器學習、深度學習、強化學習、人工神經網絡等技術。通過這些算法,AI智能體可以從大量數據中學習並改進自身的性能,不斷優化自己的決策和行爲,還可以根據環境變化做出靈活地調整,適應不同場景和任務。
目前,AI智能體已在不少場景中得到應用,如客服、編程、內容創作、知識獲取、財務、手機助手、工業製造等。AI智能體的出現,標誌着人工智能從簡單的規則匹配和計算模擬向更高級別的自主智能邁進,促進了生產效率的提升和生產方式的變革,開闢了人們認識和改造世界的新境界。
AI智能體的感官革命
莫拉維克悖論(Moravec’s paradox)指出,對於人工智能系統而言,高級推理只需非常少的計算能力,而實現人類習以爲常的感知運動技能卻需要耗費巨大的計算資源。實質上,與人類本能可以完成的基本感官任務相比,複雜的邏輯任務對AI而言更加容易。這一悖論凸顯了現階段的AI與人類認知能力之間的差異。
著名計算機科學家吳恩達曾說:“人類是多模態的生物,我們的AI也應該是多模態的。”這句話道出了多模態AI的核心價值——讓機器更接近人類的認知方式,從而實現更自然、更高效的人機交互。
我們每個人就像一個智能終端,通常需要去學校上課接受學識薰陶(訓練),但訓練與學習的目的和結果是我們有能力自主工作和生活,而不需要總是依賴外部的指令和控制。人們通過視覺、語言、聲音、觸覺、味覺和嗅覺等多種感官模式來了解周圍的世界,進而審時度勢,進行分析、推理、決斷並採取行動。
AI智能體的核心在於“智能”,自主性是其主要特點之一。它們可以在沒有人類干預的情況下,根據預設的規則和目標,獨立地完成任務。
想象一下,一輛無人駕駛車裝備了先進的攝像頭、雷達和傳感器,這些高科技的“眼睛”讓它能夠“觀察”周圍的世界,捕捉到道路的實時狀況、其他車輛的動向、行人的位置以及交通信號的變化等信息。這些信息被傳輸到無人駕駛車的大腦——一個複雜的智能決策系統,這個系統能夠迅速分析這些數據,並制定出相應的駕駛策略。
例如,面對錯綜複雜的交通環境,自動駕駛汽車能夠計算出最優的行駛路線,甚至在需要時做出變道等複雜決策。一旦決策制定,執行系統便將這些智能決策轉化爲具體的駕駛動作,比如轉向、加速和制動。
在基於龐大數據和複雜算法構建的大型智能體模型中,交互性體現得較爲明顯。能夠“聽懂”並回應人類複雜多變的自然語言,正是AI智能體的神奇之處——它們不僅能夠“理解”人類的語言,還能夠進行流暢而富有洞察力的交互。
AI智能體不僅能迅速適應各種任務和環境,還能通過持續學習不斷優化自己的性能。自深度學習技術取得突破以來,各種智能體模型通過不斷積累數據和自我完善,變得更加精準和高效。
此外,AI智能體對環境的適應性也十分強大,在倉庫工作的自動化機器人能夠實時監測並避開障礙物。當感知到某個貨架位置發生變化時,它會立即更新其路徑規劃,有效地完成貨物的揀選和搬運任務。
AI智能體的適應性還體現在它們能夠根據用戶的反饋進行自我調整。通過識別用戶的需求和偏好,AI智能體可以不斷優化自己的行爲和輸出,提供更加個性化的服務,比如音樂軟件的音樂推薦、智能醫療的個性化治療等等。
多模態大模型和世界模型的出現,顯著提升了智能體的感知、交互和推理能力。多模態大模型能夠處理多種感知模式(如視覺、語言),使智能體能夠更全面地理解和響應複雜的環境。世界模型則通過模擬和理解物理環境中的規律,爲智能體提供了更強的預測和規劃能力。
經過多年的傳感器融合和AI演進,機器人現階段基本上都配備有多模態傳感器。隨着機器人等邊緣設備開始具備更多的計算能力,這些設備正變得愈加智能,能夠感知周圍環境,理解並以自然語言進行溝通,通過數字傳感界面獲得觸覺,以及通過加速計、陀螺儀與磁力計等的組合,來感知機器人的比力、角速度,甚至機器人周圍的磁場。
在Transformer和大語言模型(LLM)出現之前,要在AI中實現多模態,通常需要用到多個負責不同類型數據(文本、圖像、音頻)的單獨模型,並通過複雜的過程對不同模態進行集成。
而在Transformer和LLM出現後,多模態變得更加集成化,使得單個模型可以同時處理和理解多種數據類型,從而產生對環境綜合感知能力更強大的AI系統,這一轉變大大提高了多模態AI應用的效率和有效性。
雖然GPT-3等LLM主要以文本爲基礎,但業界已朝着多模態取得了快速進展。從OpenAI的CLIP和DALL·E,到現在的Sora和GPT-4o,都是向多模態和更自然的人機交互邁進的模型範例。
例如,CLIP可理解與自然語言配對的圖像,從而在視覺和文本信息之間架起橋樑;DALL·E旨在根據文本描述生成圖像。我們看到Google Gemini模型也經歷了類似的演進。
2024年,多模態演進加速發展。今年2月,OpenAI發佈了Sora,它可以根據文本描述生成逼真或富有想象力的視頻。仔細想想,這可以爲構建通用世界模擬器提供一條頗有前景的道路,或成爲訓練機器人的重要工具。
3個月後,GPT-4o顯著提高了人機交互的性能,並且能夠在音頻、視覺和文本之間實時推理。綜合利用文本、視覺和音頻信息來端到端地訓練一個新模型,消除從輸入模態到文本,再從文本到輸出模態的兩次模態轉換,進而大幅提升性能。
多模態大模型有望改變機器智能的分析、推理和學習能力,使機器智能從專用轉向通用。通用化將有助於擴大規模,產生規模化的經濟效應,價格也能隨着規模擴大而大幅降低,進而被更多領域採用,從而形成一個良性循環。
潛在風險不容忽視
AI智能體通過模擬和擴展人類的認知能力,有望廣泛應用於醫療、交通、金融及國防等多個領域。有學者推測,到2030年,人工智能將助推全球生產總值增長12%左右。
不過,在看到AI智能體飛速發展的同時,也要看到其面臨的技術風險、倫理和隱私等問題。一羣證券交易機器人通過高頻買賣合約便在納斯達克等證券交易所短暫地抹去了1萬億美元的價值,世界衛生組織使用的聊天機器人提供了過時的藥品審覈信息,美國一位資深律師沒能判斷出自己向法庭提供的歷史案例文書竟然均由ChatGPT憑空捏造……這些真實發生的案例表明,AI智能體帶來的隱患不容小覷。
因爲AI智能體可以自主決策,又能通過與環境交互施加對物理世界的影響,其一旦失控將給人類社會帶來極大威脅。哈佛大學教授齊特雷恩認爲,這種不僅能與人交談,還能在現實世界中行動的AI智能體,是“數字與模擬、比特與原子之間跨越血腦屏障的一步”,應當引起警覺。
首先,AI智能體在提供服務的過程中會收集大量數據,用戶需要確保數據安全,防止隱私泄露。
其次,AI智能體的自主性越強,越有可能在複雜或未預見的情境中做出不可預測或不當的決策。AI智能體的運行邏輯可能使其在實現特定目標過程中出現有害偏差,其帶來的安全隱患不容忽視。用更加通俗的話來說,就是在一些情況下,AI智能體可能只捕捉到目標的字面意思,沒有理解目標的實質意思,從而做出了一些錯誤的行爲。
再次,AI大語言模型本身具備的“黑箱”和“幻覺”問題也會增加出現操作異常的頻率。還有一些“狡猾”的AI智能體能夠成功規避現有的安全措施,相關專家指出,如果一個AI智能體足夠先進,它就能夠識別出自己正在接受測試。目前已經發現一些AI智能體能夠識別安全測試並暫停不當行爲,這將導致識別對人類危險算法的測試系統失效。
此外,由於目前並無有效的AI智能體退出機制,一些AI智能體被創造後可能無法被關閉。這些無法被停用的AI智能體,最終可能會在一個與最初啓動它們時完全不同的環境中運行,徹底背離其最初用途。AI智能體也可能會以不可預見的方式相互作用,造成意外事故。
爲此,人類目前需儘快從AI智能體開發生產、應用部署後的持續監管等方面全鏈條着手,及時制定相關法律法規,規範AI智能體行爲,從而更好地預防AI智能體帶來的風險、防止失控現象的發生。
展望未來,AI智能體有望成爲下一代人工智能的關鍵載體,它將不僅改變我們與機器交互的方式,更有可能重塑整個社會的運作模式,正成爲推動人工智能轉化過程中的一道新齒輪。