2024年1月16日,美國商務部商業(yè)數(shù)據(jù)治理委員會發(fā)布《生成型AI和開放數(shù)據(jù):指南和最佳實踐》,為發(fā)布供生成式AI系統(tǒng)使用的開放數(shù)據(jù)提供指導,,確保商務部數(shù)據(jù)在生成式AI時代能有效利用,。
一、背景
商務部與開放數(shù)據(jù)資產(chǎn):美國商務部是主要的開放數(shù)據(jù)生產(chǎn)者,其數(shù)據(jù)涵蓋人口、經(jīng)濟、環(huán)境等多領域,,有超15萬個開放數(shù)據(jù)集,包括文本,、表格,、地理空間等多種格式。長期以來,,商務部致力于提高數(shù)據(jù)質量和可訪問性,,如40年前將數(shù)據(jù)電子化,近年依據(jù)法案以機器可讀格式發(fā)布數(shù)據(jù),。如今,,為適應生成式AI應用發(fā)展,持續(xù)改進數(shù)據(jù)發(fā)布實踐,。
人工智能與生成式人工智能發(fā)展:人工智能旨在使計算機算法具備類人智能行為,,機器學習和深度學習是其重要分支,生成式AI則是深度學習中的模型子集,,可生成新內容,。生成式AI應用有潛力使開放數(shù)據(jù)更易用,但也存在如編造虛假信息等問題,,且其基礎模型訓練資源消耗大,。商務部希望通過本指南使開放數(shù)據(jù)適配生成式AI系統(tǒng),降低創(chuàng)新成本,。
指南制定過程:鑒于生成式AI發(fā)展,,商務部數(shù)據(jù)治理委員會于2023年成立工作組,。因現(xiàn)有數(shù)據(jù)存在格式、元數(shù)據(jù),、文檔和可訪問性不一致及許可等問題,,工作組發(fā)布信息請求(RFI)并舉辦研討會,收到37份來自各界的提交內容,。本指南參考RFI回應及專家意見,,雖主要針對商務部,,但對其他數(shù)據(jù)發(fā)布者也有價值,,且定義了相關術語如生成式模型、系統(tǒng)和應用等,,并分析了商務部開放數(shù)據(jù)在生成式 AI 系統(tǒng)中的訓練,、測試驗證、微調及數(shù)據(jù)檢索和實時響應等應用方式,。
二,、指南與最佳實踐
1、文檔記錄
提供全面數(shù)據(jù)資產(chǎn)背景:全面記錄數(shù)據(jù)集信息至關重要,,包括數(shù)據(jù)用途,、限制、偏差,、數(shù)據(jù)字典,、來源及處理步驟等,有助于深入理解數(shù)據(jù),,提升AI模型訓練與數(shù)據(jù)檢索的準確性和可靠性,。實施持久標識符(PID)可確保數(shù)據(jù)及相關文檔的穩(wěn)定引用,即便數(shù)據(jù)更新也能準確追蹤,。每次數(shù)據(jù)發(fā)布后及時更新文檔并進行版本控制,,詳細記錄數(shù)據(jù)變化情況,同時提供數(shù)據(jù)處理的開源代碼,,增強數(shù)據(jù)處理過程的透明度與可重復性,。
最大化文檔可用性和可訪問性:采用人類和機器可讀的雙格式提供文檔,人類可讀格式便于研究人員等理解數(shù)據(jù),,機器可讀格式則利于自動化數(shù)據(jù)處理,。在合適場景下優(yōu)先選用開源軟件格式,如R或Python,,避免使用專有軟件,,以增強數(shù)據(jù)的可獲取性、透明度和互操作性,,促進生成式AI系統(tǒng)對數(shù)據(jù)的有效利用,。
2,、數(shù)據(jù)和元數(shù)據(jù)格式
發(fā)布全面結構化數(shù)據(jù)和元數(shù)據(jù):在數(shù)據(jù)集元數(shù)據(jù)中納入如發(fā)布者、來源,、權限,、更新日期等與生成式AI相關的關鍵信息,同時添加詳細的變量級元數(shù)據(jù),,涵蓋應用邏輯,、依賴信息、分布信息等,,提升數(shù)據(jù)的機器可理解性,,為AI模型訓練和數(shù)據(jù)處理提供有力支持。遵循常用元數(shù)據(jù)模式和標準(如DCAT-US,、Schema.org等)發(fā)布數(shù)據(jù)和元數(shù)據(jù),,確保數(shù)據(jù)在不同系統(tǒng)間的互操作性。使用標準缺失數(shù)據(jù)值,,避免因缺失值表示不一致導致的誤解,,并確保文件命名規(guī)范、清晰,,便于數(shù)據(jù)管理和檢索,。
最大化數(shù)據(jù)和元數(shù)據(jù)可用性:以機器可讀格式生成數(shù)據(jù)和元數(shù)據(jù),滿足開放數(shù)據(jù)法案要求,,采用如CSV,、JSON等常用開放數(shù)據(jù)格式,確保數(shù)據(jù)傳播不受特定軟件限制,。對于地理空間數(shù)據(jù),、圖像和視頻數(shù)據(jù)等,分別選用合適的開放格式(如 shapefiles,、GeoPackages,、標準化圖像和視頻格式)進行發(fā)布,避免使用PDF和過度依賴專有軟件格式(如XLSX),,以提高數(shù)據(jù)的可訪問性和互操作性,。
3、數(shù)據(jù)存儲和傳播
以一致格式傳播開放數(shù)據(jù):考慮到生成式AI系統(tǒng)對大量數(shù)據(jù)的需求,,壓縮或提供便捷下載方式以減少大型數(shù)據(jù)集的訪問障礙,,采用ZIP、Apache Parquet等開源且語言無關的文件格式進行壓縮,,提高數(shù)據(jù)訪問效率,。在數(shù)據(jù)發(fā)布中附帶詳細的書面文檔,為生成式AI模型訓練和微調提供豐富背景信息,增強數(shù)據(jù)的實用性,。
將開放數(shù)據(jù)存儲在易于檢索位置:提供多種數(shù)據(jù)檢索方式,,如RESTful API和直接下載。RESTful API便于數(shù)據(jù)科學家和開發(fā)者編程檢索特定數(shù)據(jù)子集,,提高數(shù)據(jù)檢索的靈活性和效率,;直接下載則適用于需要完整數(shù)據(jù)集進行本地處理的用戶。確保數(shù)據(jù)網(wǎng)站定期更新,,優(yōu)化網(wǎng)站結構(如設置合理的sitemaps,、一致的URL命名)、保證安全證書有效,、合理配置robots.txt文件以及采用HTML格式發(fā)布文檔等,,提高網(wǎng)站的可爬取性,方便搜索引擎和自動化工具發(fā)現(xiàn)和索引數(shù)據(jù),。
4,、數(shù)據(jù)許可和使用
以易懂格式發(fā)布開放數(shù)據(jù)權利和許可:明確界定并以機器可讀格式發(fā)布生成式AI相關的數(shù)據(jù)使用政策,涵蓋專利,、隱私等限制條件,協(xié)調部門間制定統(tǒng)一的知識產(chǎn)權聲明和許可模板,,確保數(shù)據(jù)使用的一致性和規(guī)范性,。在商務部網(wǎng)站根目錄設置robots.txt文件,規(guī)范網(wǎng)絡爬蟲對數(shù)據(jù)的訪問行為,,同時結合其他機制(如API密鑰,、訪問控制)有效管理數(shù)據(jù)檢索。在數(shù)據(jù)集元數(shù)據(jù)中準確鏈接數(shù)據(jù)許可證和權利信息,,區(qū)分開放數(shù)據(jù)許可證和版權許可證,,避免數(shù)據(jù)使用的混淆,確保數(shù)據(jù)使用符合法律規(guī)定和用戶預期,。
協(xié)作開發(fā)和更新數(shù)據(jù)許可證和使用政策:商務部內部各實體應與法律部門緊密合作,,共同制定和更新數(shù)據(jù)許可證和使用政策,加強部門間溝通協(xié)作,,避免政策不一致,。在更新政策時及時共享信息,提高政策的透明度和一致性,。具體措施包括更新許可模板,、制定詳細的元數(shù)據(jù)和機器可讀許可證應用指南,以及在商務部現(xiàn)有知識產(chǎn)權資源中設立專門的“IP 和數(shù)據(jù)許可”部分,,為數(shù)據(jù)使用提供全面的模板和最佳實踐參考,。
5、數(shù)據(jù)質量和完整性
為高質量數(shù)據(jù)檢索準備開放數(shù)據(jù):在數(shù)據(jù)集元數(shù)據(jù)中明確指示數(shù)據(jù)質量評估情況,便于用戶篩選和理解數(shù)據(jù)可靠性,。建立自動化數(shù)據(jù)質量控制流程,,檢查數(shù)據(jù)缺失值、類型一致性和格式問題,,并確保AI相關元數(shù)據(jù)完整,,結合手動審查確保數(shù)據(jù)質量。優(yōu)化API設計,,確保其高效返回相關信息,,數(shù)據(jù)格式符合模型要求,提供豐富的元數(shù)據(jù)和上下文信息,,并具備高并發(fā)處理能力和良好的文檔及工具支持,,為基于檢索增強生成(RAG)架構的AI模型提供高質量數(shù)據(jù)。
持續(xù)評估開放數(shù)據(jù)準確性:開發(fā)針對AI/ML應用領域的基準數(shù)據(jù)集,,用于評估模型性能和數(shù)據(jù)檢索,、解釋效果,克服現(xiàn)有基準數(shù)據(jù)集的局限性,。提供針對商務部常用數(shù)據(jù)集的提示庫,,指導生成式AI模型如何與實時數(shù)據(jù)交互,提高模型響應的準確性和可靠性,。與生成式AI應用開發(fā)者合作,,通過優(yōu)化模型訓練和調整,確保在生成響應時優(yōu)先使用商務部的權威數(shù)據(jù),,避免因數(shù)據(jù)來源問題導致的錯誤信息傳播,。
三、未來工作
1,、探索數(shù)字簽名
在開放的商務部數(shù)據(jù)環(huán)境中,,強烈建議實施數(shù)字簽名。數(shù)字簽名作為一種加密機制,,能夠有效驗證數(shù)據(jù)來源的可信度,,確保數(shù)據(jù)在傳輸和存儲過程中未被篡改。這對于維護數(shù)據(jù)集的完整性和準確性至關重要,,因為被篡改或偽造的數(shù)據(jù)可能會給機器學習模型帶來嚴重的偏差和漏洞,。通過采用數(shù)字簽名,商務部可以增強其數(shù)據(jù)集的真實性和可靠性,,營造一個更安全的數(shù)據(jù)生態(tài)系統(tǒng),,提升用戶對使用開放數(shù)據(jù)進行AI/ML系統(tǒng)開發(fā)(包括生成式AI應用)的信任度。
2,、創(chuàng)建AI就緒性評估指標
盡管商務部期望在整個部門內推行現(xiàn)有的指南,,但目前缺乏評估數(shù)據(jù)資產(chǎn)是否符合生成式AI就緒性的具體指標或清單。例如,需要建立一個技術標準來明確商務部應努力達到的AI就緒性水平,,以及制定網(wǎng)站可爬取性的檢查清單等,。通過確立這些評估指標,商務部將擁有清晰,、可操作的目標,,以便衡量工作進展并精準識別需要改進的領域,從而切實確保數(shù)據(jù)資產(chǎn)能夠滿足生成式AI的應用需求,。
3,、開發(fā)開放數(shù)據(jù)使用教育材料
商務部雖然已經(jīng)擁有一定數(shù)量的教育資源,如各類教育網(wǎng)站和培訓項目,,但隨著其開放數(shù)據(jù)與AI模型開發(fā)和使用的交集日益增多,,仍需進一步加強對學生、研究人員和公眾的教育資源建設,。這包括開發(fā)新的培訓課程,、教程、材料,,以及舉辦更多的研討會和培訓活動,,以提升用戶對商務部開放數(shù)據(jù)在生成式AI應用中的理解和使用能力。
4,、與其他機構合作開展開放數(shù)據(jù)和AI就緒性工作
商務部認識到其他聯(lián)邦機構也在積極探索實現(xiàn)AI就緒性,,因此期待與這些機構分享自身經(jīng)驗和成果。例如,,國家科學基金會的NAIRR試點項目就是一個正在進行的合作案例,該項目整合了商務部下屬的NOAA和USPTO的AI就緒數(shù)據(jù)資產(chǎn),。通過與其他機構的合作,,商務部能夠促進開放數(shù)據(jù)和AI就緒性工作在更廣泛范圍內的協(xié)同發(fā)展,實現(xiàn)資源共享和優(yōu)勢互補,。
5,、與AI和開放數(shù)據(jù)專家協(xié)作進行迭代
當前的指南僅僅是一個迭代過程的開端,為了持續(xù)改進商務部的開放數(shù)據(jù)以更好地適應生成式AI應用,,需要與AI和開放數(shù)據(jù)專家進行定期的,、廣泛的反饋交流。商務部歡迎來自公眾,、政府,、學術界、工業(yè)界和其他利益相關者的反饋意見,,涵蓋數(shù)據(jù)和元數(shù)據(jù)格式,、數(shù)據(jù)存儲和傳播、數(shù)據(jù)許可和使用以及數(shù)據(jù)完整性和質量等各個方面,以便不斷優(yōu)化指南內容,,使其始終保持相關性和有效性,。
6、創(chuàng)建與數(shù)據(jù)用戶溝通的標準渠道
商務部應建立標準化的方式向數(shù)據(jù)用戶傳達數(shù)據(jù)集的變更信息,,例如創(chuàng)建一個可供用戶跟蹤的標準頁面或設立電子郵件列表,。同時,提供通用的反饋機制(如在線表單)也至關重要,,以便數(shù)據(jù)用戶能夠就數(shù)據(jù)變更提出疑問,、報告問題或為即將發(fā)布的數(shù)據(jù)提供建議。此外,,還應積極培育開放數(shù)據(jù)用戶社區(qū),,鼓勵用戶參與數(shù)據(jù)的改進和優(yōu)化工作,例如通過舉辦類似Census Bureau 的 The Opportunity Project或NOAA的Open Data Dissemination Office Hours等活動,,為數(shù)據(jù)用戶提供交流和反饋的平臺,。
關注“廣東技術性貿易措施”,獲取更多服務,。