AI安全攻防戰
本報記者 蔣牧雲 何莎莎 烏鎮 北京報道
AI在掀起科技浪潮的同時,也帶來了網絡安全、數據安全的挑戰。
《中國經營報》記者注意到,在2024年世界互聯網大會烏鎮峰會(以下簡稱“烏鎮峰會”)上,AI安全挑戰成爲各方關注的焦點之一,比如會上設置了網絡安全技術發展與國際合作論壇、國內首個AI大模型攻防賽等。
多位業內人士向記者表示,隨着AI技術不斷深入場景,安全事件也愈演愈烈。大模型訓練數據泄露、訓練遭“投毒”、AI換臉詐騙等問題層出不窮。針對這些現象,不少企業選擇通過AI技術解決AI安全問題,通過安全大模型、AI自動化檢測、深度鑑僞技術等,提升風險檢測反應能力、確保安全防線的牢固。
安全攻防新形勢
在烏鎮峰會的開幕式上,中共中央政治局常委、國務院副總理丁薛祥發表主旨講話強調,當前互聯網、大數據、雲計算、人工智能、區塊鏈等技術不斷取得突破,正在全面賦能經濟社會發展,但數字鴻溝仍在擴大,網絡安全形勢更加嚴峻。
那麼,AI帶來的安全挑戰具體有哪些?全國政協委員、全國工商聯副主席、奇安信集團董事長齊向東向記者表示,AI正在黑客攻擊、社會操縱和戰略規劃等關鍵領域飛速取得進展,並帶來前所未有的挑戰,安全已經來到臨界點。
在齊向東看來, AI帶來的安全危機可以總結爲“三化”,即黑箱化、黑產化、武器化。具體而言,AI黑箱化將導致內容生成良莠不齊。“在生成AI大模型的過程中,數據和模型在黑箱內部,現實世界和數字世界之間有一道天然隔閡,這不僅使得我們難以洞悉具體使用了哪些數據集和算法,也模糊了攻擊者可能採取的具體破壞手段,從而導致有害內容及錯誤信息的泛濫。”
齊向東談道:“在今年的實網攻防演練中,奇安信攻擊隊就成功攻破了某AI大模型,並總結出針對大模型的攻擊途徑。通過多種手法,篡改了大模型輸出內容、讓模型出現預料之外或者有害結果,甚至直接癱瘓了大模型。”
AI黑產化則會導致深度僞造氾濫成災。齊向東表示,不法分子藉助AI技術對圖像、音視頻等內容進行深度僞造,以達到不可告人的目的。無論是公衆還是企業,都逃不脫深僞詐騙的陷阱。而AI武器化將導致黑客攻擊愈演愈烈。人工智能可以生成惡意軟件、釣魚郵件,也可以快速發現目標系統中的漏洞,大幅降低網絡攻擊門檻,讓不懂代碼、不懂技術的普通人也能成爲黑客,攻擊數量大幅增加。目標處於無法應對的飽和狀態,網絡空間“易攻難守”成常態。
烏鎮峰會期間,由中國圖象圖形學學會、螞蟻集團、雲安全聯盟(CSA)大中華區聯合主辦的國內首個AI大模型攻防賽亦聚焦於深度僞造的安全問題。螞蟻集團相關負責人告訴記者:“只需10秒,大模型就能克隆聲音、復刻照片,甚至能生成‘你’的視頻,從而引發深僞欺詐、色情影像僞造、假新聞等社會事件;大模型‘越獄’問題頻發,誘騙AI聽從不懷好意的指令,生成血腥、暴力、歧視、仇恨的圖片、視頻,危害網絡空間安全。”
安恆信息相關負責人也告訴記者:“隨着AI技術不斷深入場景,安全事件也愈演愈烈。大模型訓練數據泄露、訓練遭‘投毒’、AI換臉詐騙等問題層出不窮。從訓練到應用,大模型的安全風險無處不在。比如數據隱私和安全問題,AI系統通常需要大量的數據來訓練模型,這可能涉及敏感的個人信息。如果這些數據被不當使用或泄露,將對個人隱私造成威脅。還有內容安全問題,如何確保AI不生成錯誤內容、違規內容和惡意代碼?如何確保大模型生成的代碼或內容不被用於執行安全攻擊?這都是AI帶來的新的安全挑戰。”
以AI治理AI
中國工程院院士、中國圖象圖形學學會理事長王耀南指出:“加強大模型安全保護,構建完善的安全防護體系,是確保人工智能技術持續、穩定、健康發展的關鍵所在,也是我們在這個充滿機遇與挑戰的時代必須肩負起的重要使命。”
記者在烏鎮峰會會場瞭解到,針對AI技術帶來的深度僞造風險,螞蟻集團正通過蟻天鑑和ZOLOZ等安全技術產品加強對圖像、視頻的鑑真能力。據介紹,蟻天鑑不僅支持圖像、視頻等多模態內容真實性及深度僞造的監測,還支持大模型X光、大模型基礎設施測評、應用安全測評、圍欄防禦等技術能力。記者現場從圖庫中選擇了數張照片,僅用幾秒,蟻天鑑就可以準確識別圖片或視頻片段的真僞。
而ZOLOZ則更專注於攻克AI換臉難題,其人臉識別準確率達99.9%。在現場,觀衆可以上傳一張個人照片,由AI基於照片合成新的人臉圖像來試圖突破 ZOLOZ 防禦系統。工作人員告訴記者,目前ZOLOZ已爲中國、印度尼西亞、馬來西亞、菲律賓等24個國家和地區提供技術服務,涵蓋金融、保險、證券、信貸、電信、公共服務等多個領域,累計服務用戶超12億。
齊向東告訴記者,未來強化人工智能安全治理,需要重點採用三大技術策略。第一個策略是結合大模型基礎運行環境、訓練環境、API接口以及數據安全進行多維度、體系化防護。大模型生命週期的每個環節都存在大量不確定性,無論是數據安全、算法開發和模型安全、內容還是應用安全等方面,都要做到合規。
第二個策略是用“鑑僞”“防僞”技術有效遏制深度僞造。針對正在野蠻生長的生成式僞造語音技術、生成式僞造視頻技術,應該儘快發展相關檢測技術。比如,奇安信自研的深度鑑僞模型能夠準確識別多種前沿AI僞造技術生成的虛假圖片視頻;洛基平臺可以通過內網在線訪問,上傳圖片、視頻開展深度鑑僞。
第三個策略是用安全大模型反哺安全能力大提升。建立體系化的安全防護系統,是AI安全大模型驅動安全的重要前提。奇安信的內生安全體系,把網絡安全設備和業務流轉、不同層次的信息系統有機結合起來,做到安全能力的無死角,確保多道網絡安全防線有效協同,實現從宏觀管控到微觀檢測的全面防護。記者瞭解到,奇安信在內生安全體系之上,部署了自研的QAX-GPT安全大模型,這樣不僅讓大模型更懂客戶業務,同時也讓安全體系效率更高、能力更強。經過反覆訓練打磨,AI安全大模型的研判效率已經提到了人工的60多倍。
事實上,類似的“以AI治理AI”模式已經成爲解決安全風險的一大趨勢。安恆信息相關負責人告訴記者,公司正從對抗性訓練、自動化檢測、大模型風險檢測、聯邦學習和隱私保護、AI輔助威脅情報等5大方向進行探索。其中,對抗性訓練通過在模型訓練過程中引入對抗性樣本,目前“恆腦”利用該技術來微調訓練模型,使“恆腦”能夠更好地抵禦對抗性攻擊。這種方法提高了AI系統對惡意輸入的魯棒性。
大模型風險檢測方面,安恆則通過恆腦智鑑針對大模型風險評估採用精細化風險評估方法,覆蓋12大內容安全風險領域,細分爲40餘種小類,確保無遺漏。同時,配備20餘種檢測手段和超過25000個測試用例,提供詳盡的數據分析和安全報告,能夠幫助政企監管機構快速、精準地發現潛在問題並採取相應措施。“這些探索和實踐表明,‘以AI治理AI’不僅是技術上的需要,也是在確保AI系統安全性和可靠性方面的重要戰略。隨着AI技術的不斷髮展,這一領域將繼續演進和擴展。”該負責人表示。
未來,AI攻防還有哪些深化的方向?安恆信息相關負責人告訴記者,過往業內比較關注數據投毒,但安恆信息研究發現,相比數據投毒,大模型權重文件投毒後門的適用性更廣,危害性更大。通過模型權重文件投毒方式,模型可被控制會遵從惡意控制者行動,平時是一個常規大模型,當惡意控制者在任意時候發送指令,即可馬上讓它變成惡意大模型,如何在任何時候讓模型可控、不越界是安恆接下來要研究和探索的方向。