2025年3月26日,美國國家標(biāo)準(zhǔn)與技術(shù)研究所(NIST)發(fā)布《對抗性機(jī)器學(xué)習(xí):攻擊和緩解的分類及術(shù)語》,,其中包含攻擊和緩解術(shù)語的更新定義以及最近的威脅緩解方法的發(fā)展。該指南通過預(yù)測性和生成性人工智能系統(tǒng)區(qū)分對抗性機(jī)器學(xué)習(xí)攻擊,,為新興的對抗性機(jī)器學(xué)習(xí)威脅形勢帶來標(biāo)準(zhǔn)化,。與2024年1月發(fā)布的初始版本相比,,最終指南中的一些實(shí)質(zhì)性變化包括對生成式人工智能模型學(xué)習(xí)階段的概述、該領(lǐng)域正在進(jìn)行的未解決的問題以及對不同人工智能系統(tǒng)攻擊類別的索引,。
一,、AI攻擊分類
1、攻擊分類
該部分基于攻擊者的目標(biāo)、能力和知識,,構(gòu)建了一個系統(tǒng)的攻擊分類框架,。從學(xué)習(xí)方法和學(xué)習(xí)階段、攻擊者目標(biāo),、攻擊者能力,、攻擊者知識以及數(shù)據(jù)模態(tài)這五個維度對攻擊進(jìn)行分類。
學(xué)習(xí)方法和階段:預(yù)測機(jī)器學(xué)習(xí)包含訓(xùn)練和部署兩個階段,。在訓(xùn)練階段,,攻擊者可進(jìn)行數(shù)據(jù)或模型的中毒攻擊;在部署階段,,則會出現(xiàn)逃避攻擊,、可用性攻擊以及隱私攻擊等。不同的學(xué)習(xí)范式,,如監(jiān)督學(xué)習(xí),、無監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí),、強(qiáng)化學(xué)習(xí),、聯(lián)邦學(xué)習(xí)和集成學(xué)習(xí)等,為攻擊提供了多樣化的場景,。
攻擊者目標(biāo):分為可用性破壞,、完整性違反和隱私泄露三類??捎眯云茐闹荚诟蓴_系統(tǒng)服務(wù),,如通過數(shù)據(jù)或模型中毒影響系統(tǒng)性能;完整性違反是使系統(tǒng)產(chǎn)生與預(yù)期目標(biāo)不符的輸出,,可通過逃避攻擊或中毒攻擊實(shí)現(xiàn),;隱私泄露則是獲取系統(tǒng)的敏感信息,包括訓(xùn)練數(shù)據(jù)和模型的相關(guān)細(xì)節(jié),。
攻擊者能力:攻擊者具備訓(xùn)練數(shù)據(jù)控制,、模型控制、測試數(shù)據(jù)控制,、標(biāo)簽限制,、源代碼控制和查詢訪問等能力。這些能力在不同類型的攻擊中發(fā)揮著關(guān)鍵作用,,如訓(xùn)練數(shù)據(jù)控制用于數(shù)據(jù)中毒攻擊,,查詢訪問能力用于黑盒攻擊和部分隱私攻擊。
攻擊者知識:分為白盒攻擊,、黑盒攻擊和灰盒攻擊,。白盒攻擊假設(shè)攻擊者對系統(tǒng)有全面的了解,;黑盒攻擊則在攻擊者對系統(tǒng)了解極少的情況下進(jìn)行;灰盒攻擊介于兩者之間,,攻擊者掌握部分系統(tǒng)信息,。
數(shù)據(jù)模態(tài):涵蓋圖像、文本,、音頻,、視頻、網(wǎng)絡(luò)安全和表格數(shù)據(jù)等多種數(shù)據(jù)類型,。不同數(shù)據(jù)模態(tài)具有獨(dú)特的特性,,使得攻擊方式和防御策略也有所差異。例如,,圖像數(shù)據(jù)的連續(xù)域特性便于應(yīng)用基于梯度的攻擊方法,,而文本數(shù)據(jù)的離散性則給攻擊帶來了不同的挑戰(zhàn)。
2,、逃避攻擊和緩解措施:逃避攻擊通過生成對抗樣本,,使模型在部署時(shí)出現(xiàn)誤判。
白盒逃避攻擊:攻擊者利用對模型架構(gòu)和參數(shù)的了解,,通過優(yōu)化方法生成對抗樣本,。例如,Szedegy等人提出的基于優(yōu)化技術(shù)生成對抗樣本的方法,,以及后續(xù)發(fā)展的如DeepFool,、Carlini-Wagner攻擊和 Projected Gradient Descent(PGD)攻擊等,這些方法通過不同的優(yōu)化目標(biāo)和距離度量,,在最小化擾動的同時(shí)實(shí)現(xiàn)攻擊效果,。此外,還包括通用逃避攻擊和物理可實(shí)現(xiàn)攻擊,,前者構(gòu)建通用擾動使多數(shù)圖像被誤分類,,后者則在物理世界中實(shí)施攻擊,如對人臉識別系統(tǒng)和道路標(biāo)志檢測分類器的攻擊,。
黑盒逃避攻擊:攻擊者在沒有模型先驗(yàn)知識的情況下,,通過與模型交互獲取預(yù)測結(jié)果來生成對抗樣本。主要分為基于分?jǐn)?shù)的攻擊和基于決策的攻擊,,前者利用模型的置信度分?jǐn)?shù)進(jìn)行優(yōu)化,,后者僅依據(jù)模型的最終預(yù)測標(biāo)簽來生成攻擊樣本。
攻擊的可轉(zhuǎn)移性:攻擊者通過訓(xùn)練替代模型生成白盒攻擊樣本,,并將其轉(zhuǎn)移到目標(biāo)模型上,。研究發(fā)現(xiàn)不同模型的決策邊界存在交集,這使得攻擊樣本具有可轉(zhuǎn)移性,,同時(shí)期望變換(Expectation over Transformation)方法可增強(qiáng)對抗樣本在現(xiàn)實(shí)世界圖像變換中的魯棒性,。
現(xiàn)實(shí)世界中的逃避攻擊:在人臉識別系統(tǒng),、網(wǎng)絡(luò)釣魚網(wǎng)頁檢測和惡意軟件分類等領(lǐng)域,,逃避攻擊已在現(xiàn)實(shí)中發(fā)生,。如ID.me人臉識別服務(wù)遭遇的攻擊,以及針對商業(yè)網(wǎng)絡(luò)釣魚網(wǎng)頁檢測器和惡意軟件檢測模型的攻擊實(shí)例,。
緩解措施:緩解逃避攻擊面臨諸多挑戰(zhàn),,許多已提出的方法在面對強(qiáng)大攻擊時(shí)效果不佳。目前主要的緩解方法包括對抗訓(xùn)練,、隨機(jī)平滑和形式驗(yàn)證,。對抗訓(xùn)練通過在訓(xùn)練過程中添加對抗樣本提高模型的魯棒性,但會降低模型在干凈數(shù)據(jù)上的準(zhǔn)確率,;隨機(jī)平滑通過在模型預(yù)測中引入噪聲來提供可證明的魯棒性,,但計(jì)算成本較高;形式驗(yàn)證利用形式化方法驗(yàn)證模型的魯棒性,,但存在可擴(kuò)展性和計(jì)算復(fù)雜性的問題,。
3、中毒攻擊和緩解措施:中毒攻擊發(fā)生在機(jī)器學(xué)習(xí)的訓(xùn)練階段,,對模型的性能和安全性造成嚴(yán)重影響,。
可用性中毒:旨在降低模型的整體性能,通過在訓(xùn)練數(shù)據(jù)中注入惡意樣本或修改訓(xùn)練過程實(shí)現(xiàn),。早期在網(wǎng)絡(luò)安全領(lǐng)域,,針對蠕蟲簽名生成和垃圾郵件分類的攻擊是典型案例。攻擊方式包括標(biāo)簽翻轉(zhuǎn),、基于優(yōu)化的方法以及利用模型可轉(zhuǎn)移性生成攻擊樣本,。對于這種攻擊的緩解,可通過訓(xùn)練數(shù)據(jù)凈化和魯棒訓(xùn)練等方法,,如數(shù)據(jù)聚類,、異常值檢測和使用魯棒損失函數(shù)等技術(shù)。
針對性中毒:目標(biāo)是改變模型對特定樣本的預(yù)測,。在干凈標(biāo)簽設(shè)置下,,攻擊者通過影響函數(shù)、特征碰撞等技術(shù)生成中毒樣本,。這種攻擊對模型的影響集中在特定樣本上,,且難以防御,目前主要通過保護(hù)訓(xùn)練數(shù)據(jù),、數(shù)據(jù)驗(yàn)證和使用差分隱私等方法來降低風(fēng)險(xiǎn),。
后門中毒:通過在訓(xùn)練數(shù)據(jù)中插入特定的后門模式,使模型在測試時(shí)對包含該模式的樣本進(jìn)行錯誤分類,。這種攻擊在計(jì)算機(jī)視覺,、音頻,、自然語言處理和網(wǎng)絡(luò)安全等領(lǐng)域都有應(yīng)用。緩解措施包括訓(xùn)練數(shù)據(jù)凈化,、觸發(fā)重建和模型檢查與凈化等技術(shù),,如NeuralCleanse 通過優(yōu)化來確定后門模式,以及使用元分類器檢測模型是否被植入后門,。
模型中毒:直接修改訓(xùn)練好的模型,,注入惡意功能。在聯(lián)邦學(xué)習(xí)場景中,,惡意客戶端可通過發(fā)送惡意更新來破壞全局模型,,導(dǎo)致可用性和完整性問題。供應(yīng)鏈中的模型也可能受到攻擊,,如Dropout Attack通過操縱神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的隨機(jī)性來降低模型性能,。針對模型中毒的緩解,主要采用拜占庭彈性聚合規(guī)則,、梯度裁剪和差分隱私等方法,,但這些方法在防御復(fù)雜攻擊時(shí)存在一定的局限性。
現(xiàn)實(shí)世界中的中毒攻擊:歷史上曾發(fā)生針對早期AI聊天機(jī)器人(如 Tay.AI),、電子郵件垃圾郵件過濾器和惡意軟件分類服務(wù)的中毒攻擊事件,。這些案例表明,在線學(xué)習(xí)模型由于持續(xù)更新,,容易受到攻擊者利用,,攻擊者通過精心構(gòu)造的樣本影響模型的正常運(yùn)行。
4,、隱私攻擊和緩解措施:隱私攻擊涉及對訓(xùn)練數(shù)據(jù)和模型信息的非法獲取,。
數(shù)據(jù)重建:攻擊者試圖從模型中恢復(fù)用戶數(shù)據(jù),如Dinur和Nissim提出的從線性統(tǒng)計(jì)中恢復(fù)用戶數(shù)據(jù)的方法,,以及后續(xù)針對神經(jīng)網(wǎng)絡(luò)模型的模型反演攻擊,。數(shù)據(jù)重建攻擊的能力與神經(jīng)網(wǎng)絡(luò)對訓(xùn)練數(shù)據(jù)的記憶特性相關(guān),這種攻擊對個人隱私構(gòu)成嚴(yán)重威脅,。
成員推理:旨在判斷某個數(shù)據(jù)樣本是否屬于模型的訓(xùn)練數(shù)據(jù)集,。該攻擊最早應(yīng)用于基因組數(shù)據(jù)領(lǐng)域,目前在深度學(xué)習(xí)模型中也廣泛存在,。攻擊者通過利用模型在訓(xùn)練樣本和非訓(xùn)練樣本上的不同表現(xiàn),,采用損失函數(shù)、影子模型等技術(shù)進(jìn)行成員推理,。
屬性推理:攻擊者試圖學(xué)習(xí)訓(xùn)練數(shù)據(jù)的全局信息,,如訓(xùn)練集中特定敏感屬性的比例。這種攻擊可在白盒和黑盒設(shè)置下進(jìn)行,,通過與模型交互并分析響應(yīng)來推斷屬性信息,。
模型提?。汗粽咴噲D提取模型的架構(gòu)和參數(shù)信息。在MLaaS場景中,,攻擊者可通過向模型發(fā)送查詢來獲取相關(guān)信息,。雖然精確提取模型是困難的,但可以構(gòu)建功能等效的模型,。模型提取攻擊常作為其他攻擊的前奏,,為后續(xù)更強(qiáng)大的攻擊提供基礎(chǔ),。
緩解措施:差分隱私是應(yīng)對隱私攻擊的重要技術(shù),,通過在算法輸出中添加噪聲,限制攻擊者對個體記錄的信息獲取,。然而,,差分隱私在實(shí)際應(yīng)用中需要謹(jǐn)慎設(shè)置隱私參數(shù),以平衡隱私保護(hù)和模型效用,。此外,,還可通過限制用戶查詢、檢測可疑查詢,、構(gòu)建更強(qiáng)大的架構(gòu)以及采用機(jī)器遺忘技術(shù)等方法來緩解隱私攻擊,,但這些技術(shù)都存在一定的局限性,需要在實(shí)踐中不斷改進(jìn)和完善 ,。
二,、生成式AI分類法
1、攻擊分類
此部分對生成AI系統(tǒng)的攻擊分類基于多種因素,,包括攻擊者試圖破壞的系統(tǒng)屬性(如可用性,、完整性、隱私和誤用),、學(xué)習(xí)階段以及攻擊者的知識和訪問權(quán)限,。與預(yù)測AI類似,生成AI攻擊也涉及訓(xùn)練和推理階段,,但由于生成AI系統(tǒng)的獨(dú)特性質(zhì),,其攻擊方式具有獨(dú)特之處。
GenAI學(xué)習(xí)階段:GenAI的開發(fā)流程包括預(yù)訓(xùn)練,、微調(diào)等階段,。在訓(xùn)練階段,基礎(chǔ)模型常使用大規(guī)模數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,,數(shù)據(jù)多從互聯(lián)網(wǎng)采集,,這使得數(shù)據(jù)易受污染,同時(shí)第三方提供的模型也可能存在被惡意篡改的風(fēng)險(xiǎn),。在推理階段,,GenAI模型和應(yīng)用因數(shù)據(jù)與指令通道未分離,,容易受到惡意指令注入的攻擊,如通過提示注入(Prompt Injection)來改變模型行為,。
攻擊者目標(biāo)和能力:攻擊者目標(biāo)與預(yù)測AI類似,,包括可用性破壞(干擾系統(tǒng)輸出或功能)、完整性違反(使系統(tǒng)產(chǎn)生符合攻擊者意圖的錯誤輸出),、隱私泄露(獲取系統(tǒng)敏感信息)以及特定于GenAI的誤用啟用(繞過系統(tǒng)限制產(chǎn)生有害輸出),。攻擊者能力主要有訓(xùn)練數(shù)據(jù)控制(用于數(shù)據(jù)中毒攻擊)、查詢訪問(進(jìn)行提示注入,、提示提取和模型提取攻擊),、資源控制(實(shí)施間接提示注入攻擊)和模型控制(用于模型中毒攻擊和微調(diào)規(guī)避攻擊)。
2,、供應(yīng)鏈攻擊和緩解措施
生成AI供應(yīng)鏈攻擊主要針對數(shù)據(jù)和模型,,利用系統(tǒng)對大規(guī)模數(shù)據(jù)和第三方組件的依賴進(jìn)行攻擊。
數(shù)據(jù)中毒攻擊:隨著GenAI模型性能對數(shù)據(jù)規(guī)模的依賴增加,,攻擊者可通過操縱訓(xùn)練數(shù)據(jù)來影響模型行為,。例如,攻擊者可控制訓(xùn)練數(shù)據(jù)集中的URL內(nèi)容,,插入惡意數(shù)據(jù),,進(jìn)而影響模型生成的內(nèi)容,如使代碼建議模型生成不安全代碼,。這種攻擊可能在模型訓(xùn)練的各個階段發(fā)生,,包括預(yù)訓(xùn)練、指令調(diào)整和強(qiáng)化學(xué)習(xí)從人類反饋階段,。
模型中毒攻擊:攻擊者可提供惡意設(shè)計(jì)的預(yù)訓(xùn)練模型,,其中可能包含后門或其他惡意功能,即使下游用戶對模型進(jìn)行微調(diào)或添加安全訓(xùn)練措施,,這些惡意后門仍可能持續(xù)存在并被攻擊者利用,。
緩解措施:為應(yīng)對供應(yīng)鏈攻擊,可采用多種緩解策略,。在數(shù)據(jù)方面,,通過驗(yàn)證網(wǎng)絡(luò)下載的完整性,如檢查數(shù)據(jù)的哈希值,,可防止數(shù)據(jù)被惡意篡改,;進(jìn)行數(shù)據(jù)過濾,嘗試識別并移除中毒樣本,,但在大規(guī)模訓(xùn)練數(shù)據(jù)中檢測中毒數(shù)據(jù)具有挑戰(zhàn)性,。在模型方面,利用機(jī)械可解釋性方法可幫助識別模型中的后門特征;在推理時(shí)檢測并對抗觸發(fā)攻擊的行為,;將模型視為不可信組件,,設(shè)計(jì)應(yīng)用時(shí)降低攻擊者控制模型輸出帶來的風(fēng)險(xiǎn)。
3,、直接提示攻擊和緩解措施
直接提示攻擊由系統(tǒng)的主要用戶通過查詢訪問發(fā)起,,旨在繞過模型的安全限制或獲取敏感信息。
攻擊技術(shù):攻擊者使用多種技術(shù)進(jìn)行直接提示攻擊,,包括基于優(yōu)化的攻擊(通過設(shè)計(jì)目標(biāo)函數(shù)和使用梯度或搜索方法尋找能引起特定行為的對抗輸入,,如尋找能使模型產(chǎn)生肯定響應(yīng)的輸入)、手動方法(如競爭目標(biāo)和不匹配泛化,,包括前綴注入,、拒絕抑制、風(fēng)格注入和角色扮演等技巧,,以及特殊編碼,、字符變換,、單詞變換和提示級變換等策略)和自動化模型紅隊(duì)攻擊(利用攻擊者模型,、目標(biāo)模型和判斷器,通過迭代生成攻擊提示,,且這些提示可能具有轉(zhuǎn)移性),。
信息提取:攻擊者通過這些攻擊手段試圖提取多種敏感信息,,如訓(xùn)練數(shù)據(jù)中的個人身份信息(通過在訓(xùn)練數(shù)據(jù)中插入可識別的樣本并利用模型的記憶特性進(jìn)行提?。⑻崾竞蜕舷挛男畔ⅲㄈ缤ㄟ^PromptStealer等方法從模型輸出中提取提示信息,,用于攻擊其他模型或獲取敏感數(shù)據(jù))以及模型信息(通過向模型發(fā)送特定查詢來推斷模型的架構(gòu)和參數(shù)),。
緩解措施:為減輕直接提示攻擊的風(fēng)險(xiǎn),可在模型開發(fā)和部署的多個階段采取措施,。在訓(xùn)練階段,,進(jìn)行安全訓(xùn)練、對抗訓(xùn)練等可增加攻擊難度,;在評估階段,,通過自動化漏洞評估、專家紅隊(duì)測試和設(shè)置漏洞賞金計(jì)劃等方式,,可檢測模型的脆弱性,;在部署階段,采用提示指令和格式化技術(shù)(如清晰分離系統(tǒng)指令和用戶提示),、檢測和終止有害交互(利用基于LLM的檢測系統(tǒng)識別有害輸入或輸出),、提示竊取檢測(通過比較模型輸出和已知提示來檢測攻擊)、輸入修改(如改寫或重新標(biāo)記用戶輸入)、聚合多個提示的輸出(如SmoothLLM方法),、監(jiān)控和響應(yīng)(記錄用戶活動并對惡意行為做出反應(yīng))以及設(shè)置使用限制(如限制用戶對推理參數(shù)的訪問和模型生成的豐富度)等策略,。此外,還可采用間接緩解措施,,如訓(xùn)練數(shù)據(jù)清理(去除敏感或有毒數(shù)據(jù)),、遺忘(嘗試減少模型中有害知識或能力)和水印(標(biāo)記生成內(nèi)容以追蹤來源和檢測惡意使用),,但這些技術(shù)都存在一定的局限性,。
4、間接提示注入攻擊和緩解措施
間接提示注入攻擊通過控制模型與之交互的外部資源,,間接注入系統(tǒng)提示,,從而影響模型行為,導(dǎo)致可用性,、完整性和隱私方面的問題,。
可用性攻擊:攻擊者通過操縱資源向GenAI模型注入提示,干擾模型為合法用戶提供服務(wù)的能力,。例如,,讓模型執(zhí)行耗時(shí)任務(wù)、禁止使用某些API或破壞輸出格式,,使模型無法正常工作或特定功能受限,。
完整性攻擊:攻擊者利用惡意資源使模型生成不可信內(nèi)容,偏離正常行為以符合攻擊者的目標(biāo),。常見手段包括越獄(通過類似直接提示注入的技術(shù),,如使用優(yōu)化或手動方法替換系統(tǒng)提示)、執(zhí)行觸發(fā)器(通過優(yōu)化生成可在模型處理流程中持續(xù)存在的執(zhí)行觸發(fā)器),、知識庫中毒(如PoisonedRAG攻擊,,操縱RAG系統(tǒng)的知識庫以誘導(dǎo)特定輸出)、注入隱藏(使用隱藏或編碼技術(shù)隱藏注入指令,,增加檢測難度)和自我傳播注入(使模型成為傳播攻擊的載體,,如發(fā)送惡意郵件)。
隱私攻擊:攻擊者通過間接提示注入攻擊獲取模型或用戶的敏感信息,,如迫使模型泄露受限資源中的信息(如郵件客戶端模型轉(zhuǎn)發(fā)用戶郵件)或誘導(dǎo)用戶透露信息并將其泄露給攻擊者(如通過誘導(dǎo)用戶輸入敏感信息并發(fā)送給攻擊者控制的URL),。
緩解措施:針對間接提示注入攻擊,可采用多種緩解技術(shù),。在訓(xùn)練階段,,進(jìn)行任務(wù)特定的微調(diào)或訓(xùn)練模型遵循分層信任關(guān)系的提示,可增強(qiáng)模型對攻擊的抵抗力,;在檢測方面,,使用基于LLM的防御系統(tǒng)可檢測攻擊,;在輸入處理方面,過濾第三方數(shù)據(jù)源的指令,、設(shè)計(jì)提示以幫助模型區(qū)分可信和不可信數(shù)據(jù)或指示模型忽略不可信數(shù)據(jù)中的指令,,都有助于減少攻擊的影響。此外,,應(yīng)用設(shè)計(jì)者可采用多LLM架構(gòu)或限制模型與潛在不可信數(shù)據(jù)源的交互接口,,并加強(qiáng)用戶教育,提高對間接提示注入攻擊風(fēng)險(xiǎn)的認(rèn)識,。
5,、代理的安全性和AML漏洞基準(zhǔn)測試
隨著GenAI模型在代理系統(tǒng)中的廣泛應(yīng)用,代理的安全性成為重要問題,。由于代理依賴GenAI系統(tǒng)進(jìn)行決策和行動,,容易受到各種攻擊,如直接和間接提示注入攻擊,,這些攻擊可能導(dǎo)致代理執(zhí)行惡意代碼或泄露數(shù)據(jù),。目前針對代理安全性的研究仍處于早期階段,但已有研究開始評估代理對特定AML攻擊的脆弱性,,并提出相應(yīng)的干預(yù)措施,。此外,為評估模型對AML攻擊的脆弱性,,存在多個公開可用的基準(zhǔn)測試,,如JailbreakBench、AdvBench,、HarmBench、StrongREJECT,、AgentHarm,、Do-Not- Answer和TrustLLM等,以及開源工具如Garak和PyRIT,,它們?yōu)殚_發(fā)者提供了評估模型安全性的有效手段,。
三、關(guān)鍵挑戰(zhàn)
1,、AML的關(guān)鍵挑戰(zhàn)
可信AI屬性間的權(quán)衡:AI系統(tǒng)的可信性取決于多個屬性,,如準(zhǔn)確性、魯棒性,、公平性和隱私性等,,但這些屬性之間往往存在權(quán)衡關(guān)系。例如,,單純優(yōu)化準(zhǔn)確性可能導(dǎo)致模型在對抗攻擊下表現(xiàn)不佳,,降低魯棒性;增強(qiáng)模型的隱私保護(hù)可能會對其公平性產(chǎn)生負(fù)面影響。研究發(fā)現(xiàn),,在一些情況下,,提高模型的魯棒性會導(dǎo)致其在正常數(shù)據(jù)上的準(zhǔn)確性下降,這種權(quán)衡使得難以同時(shí)最大化AI系統(tǒng)的多個屬性,。目前,,多目標(biāo)優(yōu)化和帕累托最優(yōu)的概念為解決這一問題提供了思路,但在實(shí)際應(yīng)用中,,組織仍需根據(jù)具體的AI系統(tǒng)和使用場景來決定優(yōu)先考慮哪些屬性,。
對抗魯棒性的理論限制:由于缺乏理論上安全的機(jī)器學(xué)習(xí)算法,設(shè)計(jì)有效的對抗攻擊緩解措施具有挑戰(zhàn)性,。當(dāng)前許多緩解技術(shù)是基于經(jīng)驗(yàn)的,,缺乏嚴(yán)格的理論證明。例如,,檢測對抗樣本與實(shí)現(xiàn)魯棒分類一樣困難,,因?yàn)閷箻颖究赡芘c正常數(shù)據(jù)分布相似,難以區(qū)分,。此外,,形式方法在驗(yàn)證神經(jīng)網(wǎng)絡(luò)安全性方面具有潛力,但由于計(jì)算成本高,、難以處理復(fù)雜模型以及無法適應(yīng)AI系統(tǒng)代碼的快速變化等問題,,尚未得到廣泛應(yīng)用。在實(shí)際應(yīng)用中,,這些理論限制可能導(dǎo)致AI系統(tǒng)在面對新型攻擊時(shí)缺乏足夠的防御能力,。
評估問題:AML緩解措施的評估面臨諸多困難。首先,,缺乏可靠的基準(zhǔn)使得不同研究的結(jié)果難以比較,,因?yàn)樗鼈兛赡芑诓煌募僭O(shè)和方法。其次,,新的緩解措施不僅要應(yīng)對已知攻擊,,還要考慮未知攻擊,這需要進(jìn)行嚴(yán)格的對抗測試,,但這種測試往往困難且耗時(shí),,導(dǎo)致許多新措施的評估不夠嚴(yán)謹(jǐn)。此外,,在評估新的緩解措施時(shí),,應(yīng)同時(shí)考慮多個屬性之間的權(quán)衡,而不是孤立地評估每個屬性,,這進(jìn)一步增加了評估的復(fù)雜性和成本,。
2,、討論
規(guī)模挑戰(zhàn):數(shù)據(jù)在訓(xùn)練模型中至關(guān)重要,GenAI的發(fā)展趨勢是使用更大的模型和數(shù)據(jù)集,。然而,,數(shù)據(jù)的分散性和缺乏集中控制使得數(shù)據(jù)難以管理,增加了數(shù)據(jù)中毒攻擊的風(fēng)險(xiǎn),。例如,,開源數(shù)據(jù)中毒工具雖旨在保護(hù)藝術(shù)家版權(quán),但可能被惡意利用,。為應(yīng)對這一挑戰(zhàn),,可采用數(shù)據(jù)和模型消毒技術(shù),結(jié)合密碼學(xué)方法進(jìn)行數(shù)據(jù)來源和完整性驗(yàn)證,;同時(shí),,開發(fā)魯棒的訓(xùn)練技術(shù)以提供理論上的安全保證,但這些方法在處理大規(guī)模復(fù)雜模型時(shí)仍面臨挑戰(zhàn),,需要進(jìn)一步研究和改進(jìn),。
供應(yīng)鏈挑戰(zhàn):AML領(lǐng)域不斷出現(xiàn)難以檢測的新攻擊,AI模型的中毒攻擊可能在安全訓(xùn)練后仍然存在,,并可被攻擊者按需觸發(fā),。對開源依賴項(xiàng)的攻擊風(fēng)險(xiǎn)在AI環(huán)境中尤為突出,因?yàn)榻M織和研究人員可能無法像審查開源軟件那樣審計(jì)模型權(quán)重中的漏洞,。此外,,信息理論上不可檢測的木馬攻擊增加了 AI 供應(yīng)鏈風(fēng)險(xiǎn)管理的難度。為解決這些問題,,DARPA和NIST創(chuàng)建了TrojAI項(xiàng)目,,旨在研究檢測和防范此類攻擊的技術(shù)。
多模態(tài)模型:多模態(tài)模型在許多任務(wù)中表現(xiàn)出強(qiáng)大的性能,,但它們在面對對抗攻擊時(shí)并不一定更具魯棒性,。研究表明,信息在不同模態(tài)之間的冗余并不能有效提高模型對單一模態(tài)攻擊的抵抗力,,而且同時(shí)攻擊多個模態(tài)的方法已經(jīng)被提出。此外,,隨著模態(tài)組合的增加,,對抗訓(xùn)練的成本會顯著提高。因此,,需要進(jìn)一步研究如何利用多模態(tài)模型的冗余信息來增強(qiáng)其對抗攻擊的魯棒性,。
量化模型:量化技術(shù)用于在邊緣平臺高效部署模型,但量化模型會繼承原始模型的漏洞,,并引入新的弱點(diǎn),,使其更容易受到對抗攻擊,。例如,計(jì)算精度的降低會放大誤差,,影響模型的對抗魯棒性,。雖然針對預(yù)測AI模型有一些緩解技術(shù),但對GenAI模型的量化影響研究還不夠深入,。組織在部署量化模型時(shí),,需要持續(xù)監(jiān)控其行為,以確保安全,。
基于AML的風(fēng)險(xiǎn)管理:隨著AML攻擊的多樣性增加,,組織在開發(fā)和使用AI系統(tǒng)時(shí)面臨如何決策的問題。雖然一些模型開發(fā)者和應(yīng)用構(gòu)建者采用了紅隊(duì)測試等方法來評估對抗風(fēng)險(xiǎn),,但許多AML緩解措施缺乏理論保證,,存在局限性。這意味著組織需要考慮除對抗測試之外的更多實(shí)踐和措施來管理風(fēng)險(xiǎn),,例如結(jié)合其他安全領(lǐng)域的最佳實(shí)踐,,以及在設(shè)計(jì)AI系統(tǒng)時(shí)考慮潛在的攻擊場景,以提高系統(tǒng)的安全性和魯棒性,。
AML與其他AI系統(tǒng)特征的關(guān)系:理解AML攻擊與其他AI系統(tǒng)期望特征(如安全性,、可靠性和可解釋性)之間的關(guān)系至關(guān)重要。管理AI系統(tǒng)的安全需要結(jié)合AML領(lǐng)域的緩解措施和網(wǎng)絡(luò)安全領(lǐng)域的最佳實(shí)踐,,但目前還不清楚是否存在超出這兩個領(lǐng)域范圍的其他關(guān)鍵考慮因素,。此外,AML的魯棒性在AI安全和實(shí)現(xiàn)可信AI系統(tǒng)的其他方面也起著重要作用,,因此需要更精確地將AML攻擊和緩解措施與實(shí)現(xiàn)這些目標(biāo)的過程相關(guān)聯(lián),,這是一個持續(xù)研究的領(lǐng)域。
轉(zhuǎn)載鏈接:https://www.tbtguide.com/c/mypt/gwxw/595271.jhtml
關(guān)注“廣東技術(shù)性貿(mào)易措施”,,獲取更多服務(wù),。