AIGC時代安全大模型的探索與實踐

通信世界網消息(CWW)2022年被稱爲AIGC元年,隨着ChatGPT的問世,大語言模型在AIGC的賽道上一時風頭無兩。2023年,新華三推出"百業靈犀"私域大模型,爲垂直行業提供智能化服務,並基於在網絡安全領域的多年深耕,將大模型與安全業務融合,形成了豐富的技術實踐。

大模型在安全領域的典型應用

自2022年起,各個安全廠商都開始基於大模型構建自己的產品和商業模型,並迅速更新迭代,一時間百花齊放。透過讓人眼花繚亂的表象,分析總結可以歸爲三類。

一是通用安全大模型分析工具。將大模型與安全領域知識結合,爲用戶提供有效的分析工具,協助用戶作出更加高效的決策。例如,安全專業人員可以利用大模型分析工具從現有情報中學習、關聯和分析威脅活動,快速發現問題點,及時處置響應。

二是大模型賦能現有安全產品。將大模型與現有安全產品相結合,提升現有產品能力,增強用戶感知。例如,將大模型與高級威脅檢測產品相結合,可以提升威脅檢測率、降低誤報,並給出個性化診斷,用戶使用更加便捷。

三是私域化行業安全解決方案。基於垂直行業、特定場景對大模型進行定製化微調,面向用戶真實的安全需求,爲用戶提供一體化安全解決方案。例如,數據中心場景下,數據管理要求嚴格、敏感性強,大模型賦能的安全運營體系可以智能化分析數據流轉全過程,輔助威脅研判、響應違規事件、給出加固建議,保障數據不外泄。

以上所述三類應用的場景各不相同,解決的問題也並不一致。但如果探究三類方案的實踐,可以發現其底層邏輯是相似的,即依託於安全領域知識訓練出專用安全大模型,增強安全能力,並落地到場景化需求中。

網絡安全領域大模型落地的難點分析

雖然目前推出大模型方案的安全廠家有很多,但能夠真正落地並得到廣泛應用的卻鳳毛麟角,其根本原因是大模型賦能的實現路徑上存在三大難點,阻礙了安全大模型底層邏輯鏈路的打通。

第一個難點是安全私域大模型的構建。網絡安全涵蓋了多種威脅、攻擊和防禦技術,通用的大模型很難適用於網絡安全場景。爲了提高大模型在網絡安全領域的表現,需要對大模型進行微調訓練,讓其具備更高的領域專業性和實用性,契合安全領域要求。構造適合知識數據集,並利用合理的方式進行微調訓練是安全大模型的基礎,這就需要安全廠商既要有豐富的安全領域數據積累,還要有大模型訓練領域的實戰經驗。

第二個難點是安全大模型和產品的融合。大模型的關鍵特性是理解和分析數據,還可以創造新的、獨特的輸出。大模型和安全產品的融合,本質上是爲了利用大模型協助安全產品進行數據分析,提升產品能力。但現在一些安全產品往往是拿大模型作爲噱頭,大模型和數據並未深度結合,二者是分層的。大模型賦能安全產品的前提是對產品邏輯進行梳理,回答幾個關鍵問題——產品可以輸入哪些數據?需要得出哪些結論?大模型訓練是否充分?大模型如何與原有產品實現功能和接口上的對接?只有將大模型和安全產品在數據層面打通,才能真正實現AI賦能安全。

第三個難點是安全大模型的場景化。不同的行業具有不同的安全重點,需求也並非完全一致。金融、政務等行業場景重點關注於內網數據的合規使用,需要分析數據流轉過程,強化對越權訪問、違規事件的發現。運營商、教育等行業場景重點關注於內外部網絡攻擊,需要分析網絡流量,增強對高級威脅、病毒木馬的檢測。如何在通用安全能力的基礎上契合行業用戶的側重點,也是大模型落地的關鍵。

新華三安全大模型的技術實踐

新華三安全依託於百業靈犀私域大模型,結合在網絡安全領域積累的豐富專業的實戰經驗,打通大模型賦能的三個關鍵點,實現了大模型與安全業務的真正融合。

基於安全私域知識的大模型微調

在構建安全領域大模型之前,需要收集和整理各種安全行業領域的知識,依託於新華三多年的數據積累,除了安全基礎知識、威脅情報數據、攻擊樣本數據等開源數據外,還提供了網絡協議、攻擊載荷、攻防案例等經驗數據。

圖1 開源模型ChatGLM分析網絡流量包的表現

如圖1所示,通用的ChatGLM在分析一個完整pcap包時,沒有具備協議層的概念,將每一行字節碼錯誤地分析爲IP報文中的源IP和目的IP等字段。新華三安全提供了大量網絡協議報文作爲私域數據集,通過提供原始報文的hex字節碼形式,提問分析報文結構和字段解析。通過“提問-回答”的方式提供網絡協議解析的數據,如圖2所示。

圖2 通過GPT獲取的網絡協議分析數據

在獲取私域數據集後,需要進行進一步的微調。微調是在特定任務或領域進一步訓練大模型的過程,在經過預訓練後,模型根據特定任務的標記數據進行微調,以使其知識適應特定的下游任務。

第一步是監督微調(SFT),將安全私域數據集,採用"{prompt}+{response}"的形式進行拼接,再用拼接好的數據進行有監督的微調,如表1所示。

表1 有監督的微調

第二步是獎勵博弈(RM),構建安全領域對比數據,通過人工區分出好的回答和差的回答,隨機採樣一些prompt,通過模型生成多個response,通過人工對結果進行兩兩排序。

第三步是基於人類反饋的強化學習(RLHF),引入專業安全專家協助模型微調,確保模型不會太偏離原來的模型,並且能輸出高質量的回覆。

基於安全大模型的產品賦能

安全大模型向產品賦能的過程,首先要分析產品需求,明確可提升能力的功能點;再收集數據,利用數據集對安全大模型進行鍼對性的微調;最後開發接口調用對應的能力,實現大模型的調用。

新華三流量高級威脅與溯源系統(NDR)是針對APT檢測、處置、溯源場景的安全分析與運營產品,其在安全事件分析、網絡攻擊研判、資產風險加固、全網風險報告等各個功能點引入大模型,通過大模型提供的智能輔助,更好地實現威脅發現處置的效率和能力。例如,傳統安全事件分析功能中,在安全事件發生後,其對整網的安全影響程度通常需要人工判斷和分析,然後根據具體攻擊的方法或漏洞進行處置。NDR結合大模型,可以根據不同的攻擊類型,結合知識模型預測下一步攻擊方向,並給出處置建議;通過這些信息幫助安全運營人員更好地理解產生安全事件的緣由,深入挖掘具體攻擊,從而提供更好的支持和服務,如圖3所示。

圖3 安全事件分析

基於安全大模型的場景化實踐

安全大模型的場景化實踐,需要針對用戶具體場景,分析用戶的關鍵需求,再引入對應的大模型產品提供安全能力。在運營商行業,新華三融合AIGC技術,升級主動安全體系,護航運營商網絡的安全與穩定。這一融合不僅提升了運營商在面對日益嚴峻的網絡安全挑戰時的應對能力,同時也爲運營商提供了更加安全、高效的服務體驗。

1.實現對網絡異常行爲的智能識別,提前發現和預防潛在的安全風險,實時預警,降低風險。

2.提高網絡安全防護的主動性,對網絡攻擊進行智能預測,實現對網絡的主動防護,從而保障業務的穩定運行。

3.提升合規性,通過智能分析,及時發現和處理不合規行爲,規避不合規風險。

4.緩解網絡安全專業人才短缺的問題,實現對安全事件的自動化響應和處理,降低對專業人才的依賴,提高安全管理效率。

新華三藉助AIGC技術強化的主動安全體系,爲構建堅實可靠的網絡安全防護提供了有力支持,確保運營商網絡的安全與穩定。

安全大模型的現在與未來

亂花漸欲迷人眼,淺草才能沒馬蹄。多種多樣的安全大模型產品和方案不斷涌現,紛紛展示一技之長。有的致力於通用安全能力的落地,通過安全大模型提升安全實踐效果;有的關注細分領域能力增強,解決安全大模型在細分領域的準確性;也有的則關注大模型帶來的商業模式轉變。

在這個人人都在擁抱A I G C的時代,網絡安全行業的發展將更加多元,AIGC在網絡安全領域的應用會更加廣泛和深入,產品和方案將更加個性化和定製化。隨着數據保護和隱私保護法規的不斷加強,安全私域模型將成爲未來發展的重要趨勢。而對於百行百業用戶,如何從衆多安全大模型中找到合適的那把鑰匙,構建適用於自己行業領域的安全大模型方案,將成爲未來決勝AIGC時代的核心價值所在。