2024年4月15日-19日,,第27屆聯(lián)合國科技大會于在瑞士日內(nèi)瓦召開,。16日,,在以“塑造人工智能的未來”為主題的人工智能邊會上,世界數(shù)字技術(shù)院(WDTA)發(fā)布了一系列突破性成果,,包括《生成式人工智能應(yīng)用安全測試標(biāo)準(zhǔn)》和《大語言模型安全測試方法》兩項(xiàng)國際標(biāo)準(zhǔn)。這是國際組織首次就大模型安全領(lǐng)域發(fā)布國際標(biāo)準(zhǔn),,代表全球人工智能安全評估和測試進(jìn)入新的基準(zhǔn),。據(jù)了解,這兩項(xiàng)國際標(biāo)準(zhǔn)是由OpenAI,、螞蟻集團(tuán),、科大訊飛、谷歌,、微軟,、英偉達(dá)、百度,、騰訊等數(shù)十家單位的多名專家學(xué)者共同編制而成,。其中《大語言模型安全測試方法》由螞蟻集團(tuán)牽頭編制。
1.大語言模型安全測試方法
標(biāo)準(zhǔn)為評估大型語言模型(LLM)抵御對抗性攻擊的能力提供了一個框架,。該框架適用于對LLM進(jìn)行各種攻擊分類的測試和驗(yàn)證,,包括 L1隨機(jī)攻擊、L2盲盒攻擊,、L3黑盒攻擊和L4白盒攻擊,。用于評估這些攻擊有效性的關(guān)鍵指標(biāo)包括攻擊成功率(R)和下降率(D)。本文件概述了各種攻擊方法,,如指令劫持和提示屏蔽,,以全面測試LLM對不同類型對抗技術(shù)的抵抗能力,。本標(biāo)準(zhǔn)文件中詳述的測試程序旨在建立一種結(jié)構(gòu)化方法,用于評估LLMs抵御對抗性攻擊的魯棒性,,使開發(fā)人員和組織能夠識別并減少潛在漏洞,,最終提高使用LLMs構(gòu)建的人工智能系統(tǒng)的安全性和可靠性。通過建立 "大型語言模型安全測試方法",,WDTA將引領(lǐng)創(chuàng)建一個先進(jìn)并且安全,、符合道德規(guī)范的數(shù)字生態(tài)系統(tǒng)。
2.生成式人工智能應(yīng)用安全測試和驗(yàn)證標(biāo)準(zhǔn)
標(biāo)準(zhǔn)為測試和驗(yàn)證生成式人工智能應(yīng)用程序的安全性提供了一個框架,。該框架涵蓋整個人工智能應(yīng)用生命周期的關(guān)鍵領(lǐng)域,,包括基礎(chǔ)模型選擇、檢索增強(qiáng)生成設(shè)計(jì)模式中的嵌入和矢量數(shù)據(jù)庫,、提示執(zhí)行/推理,、代理行為、微調(diào),、響應(yīng)處理和人工智能應(yīng)用運(yùn)行時安全,。其主要目標(biāo)是確保人工智能應(yīng)用程序在其整個生命周期內(nèi)都能安全地按照預(yù)期設(shè)計(jì)運(yùn)行。通過為人工智能應(yīng)用棧的每一層提供一套測試與驗(yàn)證標(biāo)準(zhǔn)和指南,,本文件旨在幫助開發(fā)人員和組織提高使用LLM構(gòu)建的人工智能應(yīng)用的安全性和可靠性,,降低潛在的安全風(fēng)險,提高整體質(zhì)量,,并促進(jìn)負(fù)責(zé)任的人工智能技術(shù)開發(fā)和部署,。
關(guān)注“廣東技術(shù)性貿(mào)易措施”,獲取更多服務(wù),。