您的位置:首頁 >公益 > 正文

            靈御(PandaGuard) 人工智能大模型安全攻防評估平臺正式發布:人工智能北京力量護航人工智能安全穩健發展

            人工智能大語言模型在各個領域的廣泛應用從內容創作、客戶服務到教育和軟件開發,這些模型的變革潛力日益凸顯。確保其安全性、魯棒性已成為一個至關重要的問題。特別是"越獄攻擊"通過精心設計的提示詞繞過安全約束并引發有害、偏見或不道德輸出的對抗性攻擊,已經成為大語言模型安全領域的系統性和嚴峻的挑戰。

            北京前瞻人工智能安全與治理研究院、人工智能安全與超級對齊北京市重點實驗室、中國科學院自動化研究所人工智能倫理與治理中心聯合團隊正式發布靈御(PandaGuard)大模型安全攻防評估平臺,該平臺創新性地采用多智能體系統建模方法對越獄攻擊進行系統性評估。該框架在現有研究基礎上實現了重要突破,為構建安全可控的人工智能生態提供了重要保障。

            6月5日,2025全球數字經濟大會(GDEC2025)數字安全主論壇暨2025北京網絡安全大會(BCS2025)召開,前瞻研究院院長、北京市重點實驗室主任曾毅受邀發表主旨演講,介紹靈御平臺及從人工智能安全到安全人工智能的發展戰略。

            靈御(PandaGuard)平臺通過將大語言模型越獄安全概念化為多智能體系統來解決這些挑戰。在這個系統中,攻擊者、防御者、目標模型和安全判斷器相互作用??蚣艹橄蟛⒛K化了每個組件,支持即插即用的實驗,包含19種攻擊算法、12種防御機制和多種判斷策略,對49個開源和閉源大語言模型安全性進行了系統化評估。靈御平臺的這種設計促進了可控的、可重現的評估,并使得能夠對模型安全中的跨組件權衡進行深度分析。平臺實踐證明,世界上提出的所有安全護欄沒有一個可以防護住所有的攻擊算法,也沒有一個攻擊算法可以突破所有的安全護欄。在人工智能安全防護領域還有很長的路要走。

            研究發現,不同時間發布的人工智能大模型并沒有隨著模型能力的提升而同時獲得模型的安全性,近期發布的國內外能力更強大的人工智能模型安全性并沒有展現出顯著的優勢。一些較新的模型在某些安全指標上可能不如早期版本,這揭示了一個重要事實:安全性能的提升需要專門的優化投入,而不是模型能力提高的自然副產品。我國的人工智能大模型安全性方面總體處于中等水平,特別是針對很多新近發布的大模型,針對越獄攻擊等方面的安全性上還有較大提升空間。曾毅院長說:現在國內外沒有一個絕對安全的人工智能大模型,但通過類似靈御平臺這樣的AI安全護欄加固,每一個大模型都可以做到更安全。

            秉承開放合作的理念,靈御人工智能安全攻防平臺的核心框架已開源開放,研究團隊發布了完整的代碼、配置和評估結果,以支持大語言模型安全領域的透明和可重現研究。這種開放態度不僅有助于學術界的進一步研究,也為產業界的實際應用提供了便利。

            北京前瞻人工智能安全與治理研究院、人工智能安全與超級對齊北京市重點實驗室、中國科學院自動化研究所人工智能倫理與治理中心聯合團隊希望與產業界共同打造安全治理生態,將通過政產研協作的方式繼續致力于擴展靈御人工智能安全攻防評估平臺與基準,服務于產業、科研與政府在人工智能安全治理領域的需求與應用。

            在大會的主旨演講結束的時候,曾毅院長總結到:“安全與治理是人工智能核心能力,將加速人工智能穩健發展與應用。我們的前沿研究表明,如果把安全與模型能力比作魚與熊掌,實則可以兼得。沒有安全治理框架的人工智能不僅是沒有“剎車”,更是沒有“方向盤”。

            免責聲明:本文不構成任何商業建議,投資有風險,選擇需謹慎!本站發布的圖文一切為分享交流,傳播正能量,此文不保證數據的準確性,內容僅供參考

            關鍵詞:

            熱門資訊

            最新圖文