全球大模型技術競賽正推動人工智能向通用強智能發展,引發人機交互和應用研發模式變革。大模型在各行業的廣泛應用為第四次工業革命提供動力,但同時也帶來安全風險,如模型“幻覺”和指令注入攻擊。國際組織和主要國家通過制定治理原則、法律法規和技術標準來應對這些挑戰。同時,大模型在邏輯推理、任務編排等方面的卓越能力,為解決網絡空間安全瓶頸問題帶來了新的機遇。
為有效防范和消減大模型的安全風險,并促進其在安全領域的應用,阿里云聯合中國信息通信研究院等30余家行業單位共同編制《大模型安全研究報告(2024年)》,并于2024年9月19日云棲大會AI治理與安全論壇上發布。

報告凝聚業界專家共識,聚焦當前大模型突出安全風險和網絡空間安全瓶頸問題,從大模型自身安全和大模型賦能安全兩個維度,提出涵蓋安全目標、安全屬性、保護對象、安全措施四個方面的大模型自身安全框架,以及大模型賦能安全框架。期待這些框架能為社會各方提供有益參考,共同推動大模型技術產業的健康發展。
報告主要內容包括:
1. 大模型安全風險地圖
為盡可能全面應對大模型領域的基礎共性安全挑戰,本報告優先對語言、多模態等各類基礎大模型系統的安全風險進行系統梳理。與此同時,參考ISO/IEC 5338-2023 《人工智能系統生命周期過程》國際標準,將基礎大模型系統抽象為訓練數據、算法模型、系統平臺和業務應用4個重要組成部分,并通過描繪這四個組成部分面臨的重要和一般安全風險,形成大模型安全風險地圖,共涵蓋21個安全風險。
2. 大模型自身安全框架
為消減大模型面臨的基礎共性安全風險出發,提出了涵蓋安全目標、安全屬性、保護對象、安全措施四個層面的大模型自身安全框架,構建了保障大模型安全的整體解決方案。同時,提出訓練數據、模型算法、系統平臺、業務應用四方面中共計16項安全保護措施。
3. 大模型賦能安全框架
結合行業實踐情況,本報告重點闡述大模型在網絡安全、數據安全、內容安全三個領域的潛在應用方向。網絡安全領域,大模型可應用于安全威脅識別、保護、檢測、響應、恢復等多個保護環節中的關鍵場景。數據安全領域,大模型可應用于數據分類分級、APP(SDK)違規處理個人信息檢測等場景。內容安全領域,大模型可應用于文本內容安全檢測、圖像視頻內容安全檢測和音頻內容安全檢測等場景。