當前位置：廣東省應對技術性貿(mào)易壁壘信息平臺最新動態(tài)國外資訊

美國商務部商業(yè)數(shù)據(jù)治理委員會發(fā)布《生成人工智能和開放數(shù)據(jù)：指南和最佳實踐》

信息來源：江蘇省技術性貿(mào)易措施信息平臺發(fā)布日期：2025-02-08 閱讀：1478次

字體：大

小中大

2024年1月16日，美國商務部商業(yè)數(shù)據(jù)治理委員會發(fā)布《生成型AI和開放數(shù)據(jù)：指南和最佳實踐》，為發(fā)布供生成式AI系統(tǒng)使用的開放數(shù)據(jù)提供指導，確保商務部數(shù)據(jù)在生成式AI時代能有效利用。

一、背景

商務部與開放數(shù)據(jù)資產(chǎn)：美國商務部是主要的開放數(shù)據(jù)生產(chǎn)者，其數(shù)據(jù)涵蓋人口、經(jīng)濟、環(huán)境等多領域，有超15萬個開放數(shù)據(jù)集，包括文本、表格、地理空間等多種格式。長期以來，商務部致力于提高數(shù)據(jù)質(zhì)量和可訪問性，如40年前將數(shù)據(jù)電子化，近年依據(jù)法案以機器可讀格式發(fā)布數(shù)據(jù)。如今，為適應生成式AI應用發(fā)展，持續(xù)改進數(shù)據(jù)發(fā)布實踐。

人工智能與生成式人工智能發(fā)展：人工智能旨在使計算機算法具備類人智能行為，機器學習和深度學習是其重要分支，生成式AI則是深度學習中的模型子集，可生成新內(nèi)容。生成式AI應用有潛力使開放數(shù)據(jù)更易用，但也存在如編造虛假信息等問題，且其基礎模型訓練資源消耗大。商務部希望通過本指南使開放數(shù)據(jù)適配生成式AI系統(tǒng)，降低創(chuàng)新成本。

指南制定過程：鑒于生成式AI發(fā)展，商務部數(shù)據(jù)治理委員會于2023年成立工作組。因現(xiàn)有數(shù)據(jù)存在格式、元數(shù)據(jù)、文檔和可訪問性不一致及許可等問題，工作組發(fā)布信息請求（RFI）并舉辦研討會，收到37份來自各界的提交內(nèi)容。本指南參考RFI回應及專家意見，雖主要針對商務部，但對其他數(shù)據(jù)發(fā)布者也有價值，且定義了相關術語如生成式模型、系統(tǒng)和應用等，并分析了商務部開放數(shù)據(jù)在生成式 AI 系統(tǒng)中的訓練、測試驗證、微調(diào)及數(shù)據(jù)檢索和實時響應等應用方式。

二、指南與最佳實踐

1、文檔記錄

提供全面數(shù)據(jù)資產(chǎn)背景：全面記錄數(shù)據(jù)集信息至關重要，包括數(shù)據(jù)用途、限制、偏差、數(shù)據(jù)字典、來源及處理步驟等，有助于深入理解數(shù)據(jù)，提升AI模型訓練與數(shù)據(jù)檢索的準確性和可靠性。實施持久標識符（PID）可確保數(shù)據(jù)及相關文檔的穩(wěn)定引用，即便數(shù)據(jù)更新也能準確追蹤。每次數(shù)據(jù)發(fā)布后及時更新文檔并進行版本控制，詳細記錄數(shù)據(jù)變化情況，同時提供數(shù)據(jù)處理的開源代碼，增強數(shù)據(jù)處理過程的透明度與可重復性。

最大化文檔可用性和可訪問性：采用人類和機器可讀的雙格式提供文檔，人類可讀格式便于研究人員等理解數(shù)據(jù)，機器可讀格式則利于自動化數(shù)據(jù)處理。在合適場景下優(yōu)先選用開源軟件格式，如R或Python，避免使用專有軟件，以增強數(shù)據(jù)的可獲取性、透明度和互操作性，促進生成式AI系統(tǒng)對數(shù)據(jù)的有效利用。

2、數(shù)據(jù)和元數(shù)據(jù)格式

發(fā)布全面結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù)：在數(shù)據(jù)集元數(shù)據(jù)中納入如發(fā)布者、來源、權限、更新日期等與生成式AI相關的關鍵信息，同時添加詳細的變量級元數(shù)據(jù)，涵蓋應用邏輯、依賴信息、分布信息等，提升數(shù)據(jù)的機器可理解性，為AI模型訓練和數(shù)據(jù)處理提供有力支持。遵循常用元數(shù)據(jù)模式和標準（如DCAT-US、Schema.org等）發(fā)布數(shù)據(jù)和元數(shù)據(jù)，確保數(shù)據(jù)在不同系統(tǒng)間的互操作性。使用標準缺失數(shù)據(jù)值，避免因缺失值表示不一致導致的誤解，并確保文件命名規(guī)范、清晰，便于數(shù)據(jù)管理和檢索。

最大化數(shù)據(jù)和元數(shù)據(jù)可用性：以機器可讀格式生成數(shù)據(jù)和元數(shù)據(jù)，滿足開放數(shù)據(jù)法案要求，采用如CSV、JSON等常用開放數(shù)據(jù)格式，確保數(shù)據(jù)傳播不受特定軟件限制。對于地理空間數(shù)據(jù)、圖像和視頻數(shù)據(jù)等，分別選用合適的開放格式（如 shapefiles、GeoPackages、標準化圖像和視頻格式）進行發(fā)布，避免使用PDF和過度依賴專有軟件格式（如XLSX），以提高數(shù)據(jù)的可訪問性和互操作性。

3、數(shù)據(jù)存儲和傳播

以一致格式傳播開放數(shù)據(jù)：考慮到生成式AI系統(tǒng)對大量數(shù)據(jù)的需求，壓縮或提供便捷下載方式以減少大型數(shù)據(jù)集的訪問障礙，采用ZIP、Apache Parquet等開源且語言無關的文件格式進行壓縮，提高數(shù)據(jù)訪問效率。在數(shù)據(jù)發(fā)布中附帶詳細的書面文檔，為生成式AI模型訓練和微調(diào)提供豐富背景信息，增強數(shù)據(jù)的實用性。

將開放數(shù)據(jù)存儲在易于檢索位置：提供多種數(shù)據(jù)檢索方式，如RESTful API和直接下載。RESTful API便于數(shù)據(jù)科學家和開發(fā)者編程檢索特定數(shù)據(jù)子集，提高數(shù)據(jù)檢索的靈活性和效率；直接下載則適用于需要完整數(shù)據(jù)集進行本地處理的用戶。確保數(shù)據(jù)網(wǎng)站定期更新，優(yōu)化網(wǎng)站結(jié)構(gòu)（如設置合理的sitemaps、一致的URL命名）、保證安全證書有效、合理配置robots.txt文件以及采用HTML格式發(fā)布文檔等，提高網(wǎng)站的可爬取性，方便搜索引擎和自動化工具發(fā)現(xiàn)和索引數(shù)據(jù)。

4、數(shù)據(jù)許可和使用

以易懂格式發(fā)布開放數(shù)據(jù)權利和許可：明確界定并以機器可讀格式發(fā)布生成式AI相關的數(shù)據(jù)使用政策，涵蓋專利、隱私等限制條件，協(xié)調(diào)部門間制定統(tǒng)一的知識產(chǎn)權聲明和許可模板，確保數(shù)據(jù)使用的一致性和規(guī)范性。在商務部網(wǎng)站根目錄設置robots.txt文件，規(guī)范網(wǎng)絡爬蟲對數(shù)據(jù)的訪問行為，同時結(jié)合其他機制（如API密鑰、訪問控制）有效管理數(shù)據(jù)檢索。在數(shù)據(jù)集元數(shù)據(jù)中準確鏈接數(shù)據(jù)許可證和權利信息，區(qū)分開放數(shù)據(jù)許可證和版權許可證，避免數(shù)據(jù)使用的混淆，確保數(shù)據(jù)使用符合法律規(guī)定和用戶預期。

協(xié)作開發(fā)和更新數(shù)據(jù)許可證和使用政策：商務部內(nèi)部各實體應與法律部門緊密合作，共同制定和更新數(shù)據(jù)許可證和使用政策，加強部門間溝通協(xié)作，避免政策不一致。在更新政策時及時共享信息，提高政策的透明度和一致性。具體措施包括更新許可模板、制定詳細的元數(shù)據(jù)和機器可讀許可證應用指南，以及在商務部現(xiàn)有知識產(chǎn)權資源中設立專門的“IP 和數(shù)據(jù)許可”部分，為數(shù)據(jù)使用提供全面的模板和最佳實踐參考。

5、數(shù)據(jù)質(zhì)量和完整性

為高質(zhì)量數(shù)據(jù)檢索準備開放數(shù)據(jù)：在數(shù)據(jù)集元數(shù)據(jù)中明確指示數(shù)據(jù)質(zhì)量評估情況，便于用戶篩選和理解數(shù)據(jù)可靠性。建立自動化數(shù)據(jù)質(zhì)量控制流程，檢查數(shù)據(jù)缺失值、類型一致性和格式問題，并確保AI相關元數(shù)據(jù)完整，結(jié)合手動審查確保數(shù)據(jù)質(zhì)量。優(yōu)化API設計，確保其高效返回相關信息，數(shù)據(jù)格式符合模型要求，提供豐富的元數(shù)據(jù)和上下文信息，并具備高并發(fā)處理能力和良好的文檔及工具支持，為基于檢索增強生成（RAG）架構(gòu)的AI模型提供高質(zhì)量數(shù)據(jù)。

持續(xù)評估開放數(shù)據(jù)準確性：開發(fā)針對AI/ML應用領域的基準數(shù)據(jù)集，用于評估模型性能和數(shù)據(jù)檢索、解釋效果，克服現(xiàn)有基準數(shù)據(jù)集的局限性。提供針對商務部常用數(shù)據(jù)集的提示庫，指導生成式AI模型如何與實時數(shù)據(jù)交互，提高模型響應的準確性和可靠性。與生成式AI應用開發(fā)者合作，通過優(yōu)化模型訓練和調(diào)整，確保在生成響應時優(yōu)先使用商務部的權威數(shù)據(jù)，避免因數(shù)據(jù)來源問題導致的錯誤信息傳播。

三、未來工作

1、探索數(shù)字簽名

在開放的商務部數(shù)據(jù)環(huán)境中，強烈建議實施數(shù)字簽名。數(shù)字簽名作為一種加密機制，能夠有效驗證數(shù)據(jù)來源的可信度，確保數(shù)據(jù)在傳輸和存儲過程中未被篡改。這對于維護數(shù)據(jù)集的完整性和準確性至關重要，因為被篡改或偽造的數(shù)據(jù)可能會給機器學習模型帶來嚴重的偏差和漏洞。通過采用數(shù)字簽名，商務部可以增強其數(shù)據(jù)集的真實性和可靠性，營造一個更安全的數(shù)據(jù)生態(tài)系統(tǒng)，提升用戶對使用開放數(shù)據(jù)進行AI/ML系統(tǒng)開發(fā)（包括生成式AI應用）的信任度。

2、創(chuàng)建AI就緒性評估指標

盡管商務部期望在整個部門內(nèi)推行現(xiàn)有的指南，但目前缺乏評估數(shù)據(jù)資產(chǎn)是否符合生成式AI就緒性的具體指標或清單。例如，需要建立一個技術標準來明確商務部應努力達到的AI就緒性水平，以及制定網(wǎng)站可爬取性的檢查清單等。通過確立這些評估指標，商務部將擁有清晰、可操作的目標，以便衡量工作進展并精準識別需要改進的領域，從而切實確保數(shù)據(jù)資產(chǎn)能夠滿足生成式AI的應用需求。

3、開發(fā)開放數(shù)據(jù)使用教育材料

商務部雖然已經(jīng)擁有一定數(shù)量的教育資源，如各類教育網(wǎng)站和培訓項目，但隨著其開放數(shù)據(jù)與AI模型開發(fā)和使用的交集日益增多，仍需進一步加強對學生、研究人員和公眾的教育資源建設。這包括開發(fā)新的培訓課程、教程、材料，以及舉辦更多的研討會和培訓活動，以提升用戶對商務部開放數(shù)據(jù)在生成式AI應用中的理解和使用能力。

4、與其他機構(gòu)合作開展開放數(shù)據(jù)和AI就緒性工作

商務部認識到其他聯(lián)邦機構(gòu)也在積極探索實現(xiàn)AI就緒性，因此期待與這些機構(gòu)分享自身經(jīng)驗和成果。例如，國家科學基金會的NAIRR試點項目就是一個正在進行的合作案例，該項目整合了商務部下屬的NOAA和USPTO的AI就緒數(shù)據(jù)資產(chǎn)。通過與其他機構(gòu)的合作，商務部能夠促進開放數(shù)據(jù)和AI就緒性工作在更廣泛范圍內(nèi)的協(xié)同發(fā)展，實現(xiàn)資源共享和優(yōu)勢互補。

5、與AI和開放數(shù)據(jù)專家協(xié)作進行迭代

當前的指南僅僅是一個迭代過程的開端，為了持續(xù)改進商務部的開放數(shù)據(jù)以更好地適應生成式AI應用，需要與AI和開放數(shù)據(jù)專家進行定期的、廣泛的反饋交流。商務部歡迎來自公眾、政府、學術界、工業(yè)界和其他利益相關者的反饋意見，涵蓋數(shù)據(jù)和元數(shù)據(jù)格式、數(shù)據(jù)存儲和傳播、數(shù)據(jù)許可和使用以及數(shù)據(jù)完整性和質(zhì)量等各個方面，以便不斷優(yōu)化指南內(nèi)容，使其始終保持相關性和有效性。

6、創(chuàng)建與數(shù)據(jù)用戶溝通的標準渠道

商務部應建立標準化的方式向數(shù)據(jù)用戶傳達數(shù)據(jù)集的變更信息，例如創(chuàng)建一個可供用戶跟蹤的標準頁面或設立電子郵件列表。同時，提供通用的反饋機制（如在線表單）也至關重要，以便數(shù)據(jù)用戶能夠就數(shù)據(jù)變更提出疑問、報告問題或為即將發(fā)布的數(shù)據(jù)提供建議。此外，還應積極培育開放數(shù)據(jù)用戶社區(qū)，鼓勵用戶參與數(shù)據(jù)的改進和優(yōu)化工作，例如通過舉辦類似Census Bureau 的 The Opportunity Project或NOAA的Open Data Dissemination Office Hours等活動，為數(shù)據(jù)用戶提供交流和反饋的平臺。

廣東技術性貿(mào)易措施微信公眾號
關注“廣東技術性貿(mào)易措施”，獲取更多服務。

本文包含附件，您需要登錄后，才能查看此附件內(nèi)容！
如果您還不是會員，請先注冊！

[上一篇]印度將出臺國家標準《電子商務——自律原則與指南》

[下一篇]巴西發(fā)布全面生物監(jiān)管框架

美國商務部商業(yè)數(shù)據(jù)治理委員會發(fā)布《生成人工智能和開放數(shù)據(jù)：指南和最佳實踐》

相關資訊