您的位置：首頁 >公益 > 正文

靈御(PandaGuard) 人工智能大模型安全攻防評(píng)估平臺(tái)正式發(fā)布：人工智能北京力量護(hù)航人工智能安全穩(wěn)健發(fā)展

來源：中國網(wǎng) 時(shí)間：2025-06-10 15:20:27

人工智能大語言模型在各個(gè)領(lǐng)域的廣泛應(yīng)用從內(nèi)容創(chuàng)作、客戶服務(wù)到教育和軟件開發(fā)，這些模型的變革潛力日益凸顯。確保其安全性、魯棒性已成為一個(gè)至關(guān)重要的問題。特別是"越獄攻擊"通過精心設(shè)計(jì)的提示詞繞過安全約束并引發(fā)有害、偏見或不道德輸出的對(duì)抗性攻擊，已經(jīng)成為大語言模型安全領(lǐng)域的系統(tǒng)性和嚴(yán)峻的挑戰(zhàn)。

北京前瞻人工智能安全與治理研究院、人工智能安全與超級(jí)對(duì)齊北京市重點(diǎn)實(shí)驗(yàn)室、中國科學(xué)院自動(dòng)化研究所人工智能倫理與治理中心聯(lián)合團(tuán)隊(duì)正式發(fā)布靈御(PandaGuard)大模型安全攻防評(píng)估平臺(tái)，該平臺(tái)創(chuàng)新性地采用多智能體系統(tǒng)建模方法對(duì)越獄攻擊進(jìn)行系統(tǒng)性評(píng)估。該框架在現(xiàn)有研究基礎(chǔ)上實(shí)現(xiàn)了重要突破，為構(gòu)建安全可控的人工智能生態(tài)提供了重要保障。

6月5日，2025全球數(shù)字經(jīng)濟(jì)大會(huì)(GDEC2025)數(shù)字安全主論壇暨2025北京網(wǎng)絡(luò)安全大會(huì)(BCS2025)召開,前瞻研究院院長、北京市重點(diǎn)實(shí)驗(yàn)室主任曾毅受邀發(fā)表主旨演講，介紹靈御平臺(tái)及從人工智能安全到安全人工智能的發(fā)展戰(zhàn)略。

靈御(PandaGuard)平臺(tái)通過將大語言模型越獄安全概念化為多智能體系統(tǒng)來解決這些挑戰(zhàn)。在這個(gè)系統(tǒng)中，攻擊者、防御者、目標(biāo)模型和安全判斷器相互作用。框架抽象并模塊化了每個(gè)組件，支持即插即用的實(shí)驗(yàn)，包含19種攻擊算法、12種防御機(jī)制和多種判斷策略，對(duì)49個(gè)開源和閉源大語言模型安全性進(jìn)行了系統(tǒng)化評(píng)估。靈御平臺(tái)的這種設(shè)計(jì)促進(jìn)了可控的、可重現(xiàn)的評(píng)估，并使得能夠?qū)δＰ桶踩械目缃M件權(quán)衡進(jìn)行深度分析。平臺(tái)實(shí)踐證明，世界上提出的所有安全護(hù)欄沒有一個(gè)可以防護(hù)住所有的攻擊算法，也沒有一個(gè)攻擊算法可以突破所有的安全護(hù)欄。在人工智能安全防護(hù)領(lǐng)域還有很長的路要走。

研究發(fā)現(xiàn)，不同時(shí)間發(fā)布的人工智能大模型并沒有隨著模型能力的提升而同時(shí)獲得模型的安全性，近期發(fā)布的國內(nèi)外能力更強(qiáng)大的人工智能模型安全性并沒有展現(xiàn)出顯著的優(yōu)勢。一些較新的模型在某些安全指標(biāo)上可能不如早期版本，這揭示了一個(gè)重要事實(shí)：安全性能的提升需要專門的優(yōu)化投入，而不是模型能力提高的自然副產(chǎn)品。我國的人工智能大模型安全性方面總體處于中等水平，特別是針對(duì)很多新近發(fā)布的大模型，針對(duì)越獄攻擊等方面的安全性上還有較大提升空間。曾毅院長說：現(xiàn)在國內(nèi)外沒有一個(gè)絕對(duì)安全的人工智能大模型，但通過類似靈御平臺(tái)這樣的AI安全護(hù)欄加固，每一個(gè)大模型都可以做到更安全。

秉承開放合作的理念，靈御人工智能安全攻防平臺(tái)的核心框架已開源開放，研究團(tuán)隊(duì)發(fā)布了完整的代碼、配置和評(píng)估結(jié)果，以支持大語言模型安全領(lǐng)域的透明和可重現(xiàn)研究。這種開放態(tài)度不僅有助于學(xué)術(shù)界的進(jìn)一步研究，也為產(chǎn)業(yè)界的實(shí)際應(yīng)用提供了便利。

北京前瞻人工智能安全與治理研究院、人工智能安全與超級(jí)對(duì)齊北京市重點(diǎn)實(shí)驗(yàn)室、中國科學(xué)院自動(dòng)化研究所人工智能倫理與治理中心聯(lián)合團(tuán)隊(duì)希望與產(chǎn)業(yè)界共同打造安全治理生態(tài)，將通過政產(chǎn)研協(xié)作的方式繼續(xù)致力于擴(kuò)展靈御人工智能安全攻防評(píng)估平臺(tái)與基準(zhǔn)，服務(wù)于產(chǎn)業(yè)、科研與政府在人工智能安全治理領(lǐng)域的需求與應(yīng)用。

在大會(huì)的主旨演講結(jié)束的時(shí)候，曾毅院長總結(jié)到：“安全與治理是人工智能核心能力，將加速人工智能穩(wěn)健發(fā)展與應(yīng)用。我們的前沿研究表明，如果把安全與模型能力比作魚與熊掌，實(shí)則可以兼得。沒有安全治理框架的人工智能不僅是沒有“剎車”，更是沒有“方向盤”。

免責(zé)聲明：本文不構(gòu)成任何商業(yè)建議，投資有風(fēng)險(xiǎn)，選擇需謹(jǐn)慎！本站發(fā)布的圖文一切為分享交流，傳播正能量，此文不保證數(shù)據(jù)的準(zhǔn)確性，內(nèi)容僅供參考

關(guān)鍵詞：

文章排行

熱門資訊

文章排行

最新圖文

91在线视频播放_欧美日韩精品一区二区_2020国产成人精品免费视频_国产嫩草影院

靈御(PandaGuard) 人工智能大模型安全攻防評(píng)估平臺(tái)正式發(fā)布：人工智能北京力量護(hù)航人工智能安全穩(wěn)健發(fā)展

相關(guān)內(nèi)容