2024年4月15日-19日,第27屆聯(lián)合國科技大會于在瑞士日內瓦召開。16日,在以“塑造人工智能的未來”為主題的人工智能邊會上,世界數字技術院(WDTA)發(fā)布了一系列突破性成果,包括《生成式人工智能應用安全測試標準》和《大語言模型安全測試方法》兩項國際標準。這是國際組織首次就大模型安全領域發(fā)布國際標準,代表全球人工智能安全評估和測試進入新的基準。據了解,這兩項國際標準是由OpenAI、螞蟻集團、科大訊飛、谷歌、微軟、英偉達、百度、騰訊等數十家單位的多名專家學者共同編制而成。其中《大語言模型安全測試方法》由螞蟻集團牽頭編制。
1.大語言模型安全測試方法
標準為評估大型語言模型(LLM)抵御對抗性攻擊的能力提供了一個框架。該框架適用于對LLM進行各種攻擊分類的測試和驗證,包括 L1隨機攻擊、L2盲盒攻擊、L3黑盒攻擊和L4白盒攻擊。用于評估這些攻擊有效性的關鍵指標包括攻擊成功率(R)和下降率(D)。本文件概述了各種攻擊方法,如指令劫持和提示屏蔽,以全面測試LLM對不同類型對抗技術的抵抗能力。本標準文件中詳述的測試程序旨在建立一種結構化方法,用于評估LLMs抵御對抗性攻擊的魯棒性,使開發(fā)人員和組織能夠識別并減少潛在漏洞,最終提高使用LLMs構建的人工智能系統(tǒng)的安全性和可靠性。通過建立 "大型語言模型安全測試方法",WDTA將引領創(chuàng)建一個先進并且安全、符合道德規(guī)范的數字生態(tài)系統(tǒng)。
2.生成式人工智能應用安全測試和驗證標準
標準為測試和驗證生成式人工智能應用程序的安全性提供了一個框架。該框架涵蓋整個人工智能應用生命周期的關鍵領域,包括基礎模型選擇、檢索增強生成設計模式中的嵌入和矢量數據庫、提示執(zhí)行/推理、代理行為、微調、響應處理和人工智能應用運行時安全。其主要目標是確保人工智能應用程序在其整個生命周期內都能安全地按照預期設計運行。通過為人工智能應用棧的每一層提供一套測試與驗證標準和指南,本文件旨在幫助開發(fā)人員和組織提高使用LLM構建的人工智能應用的安全性和可靠性,降低潛在的安全風險,提高整體質量,并促進負責任的人工智能技術開發(fā)和部署。
關注“廣東技術性貿易措施”,獲取更多服務。