天美传媒成人|爆料在线观看|91制片厂杨柳资源|麻豆精品中出|麻豆欧美精品一区二区三区|亚洲最大色网站|我要开动了日语|网红主播大秀一区二区|91麻豆国产综合久久|精东传媒影业作品,糖心vlog官网入口安卓,午夜精品91福利,麻豆传媒林予曦拍摄花絮

廣東省應對技術性貿(mào)易壁壘信息平臺
當前位置:廣東省應對技術性貿(mào)易壁壘信息平臺最新動態(tài)國外資訊

美國商務部商業(yè)數(shù)據(jù)治理委員會發(fā)布《生成人工智能和開放數(shù)據(jù):指南和最佳實踐》

信息來源:江蘇省技術性貿(mào)易措施信息平臺    發(fā)布日期:2025-02-08    閱讀:1478次
字體:
0

2024年1月16日,美國商務部商業(yè)數(shù)據(jù)治理委員會發(fā)布《生成型AI和開放數(shù)據(jù):指南和最佳實踐》,為發(fā)布供生成式AI系統(tǒng)使用的開放數(shù)據(jù)提供指導,確保商務部數(shù)據(jù)在生成式AI時代能有效利用。

一、背景

商務部與開放數(shù)據(jù)資產(chǎn):美國商務部是主要的開放數(shù)據(jù)生產(chǎn)者,其數(shù)據(jù)涵蓋人口、經(jīng)濟、環(huán)境等多領域,有超15萬個開放數(shù)據(jù)集,包括文本、表格、地理空間等多種格式。長期以來,商務部致力于提高數(shù)據(jù)質(zhì)量和可訪問性,如40年前將數(shù)據(jù)電子化,近年依據(jù)法案以機器可讀格式發(fā)布數(shù)據(jù)。如今,為適應生成式AI應用發(fā)展,持續(xù)改進數(shù)據(jù)發(fā)布實踐。

人工智能與生成式人工智能發(fā)展:人工智能旨在使計算機算法具備類人智能行為,機器學習和深度學習是其重要分支,生成式AI則是深度學習中的模型子集,可生成新內(nèi)容。生成式AI應用有潛力使開放數(shù)據(jù)更易用,但也存在如編造虛假信息等問題,且其基礎模型訓練資源消耗大。商務部希望通過本指南使開放數(shù)據(jù)適配生成式AI系統(tǒng),降低創(chuàng)新成本。

指南制定過程:鑒于生成式AI發(fā)展,商務部數(shù)據(jù)治理委員會于2023年成立工作組。因現(xiàn)有數(shù)據(jù)存在格式、元數(shù)據(jù)、文檔和可訪問性不一致及許可等問題,工作組發(fā)布信息請求(RFI)并舉辦研討會,收到37份來自各界的提交內(nèi)容。本指南參考RFI回應及專家意見,雖主要針對商務部,但對其他數(shù)據(jù)發(fā)布者也有價值,且定義了相關術語如生成式模型、系統(tǒng)和應用等,并分析了商務部開放數(shù)據(jù)在生成式 AI 系統(tǒng)中的訓練、測試驗證、微調(diào)及數(shù)據(jù)檢索和實時響應等應用方式。

二、指南與最佳實踐

1、文檔記錄

提供全面數(shù)據(jù)資產(chǎn)背景:全面記錄數(shù)據(jù)集信息至關重要,包括數(shù)據(jù)用途、限制、偏差、數(shù)據(jù)字典、來源及處理步驟等,有助于深入理解數(shù)據(jù),提升AI模型訓練與數(shù)據(jù)檢索的準確性和可靠性。實施持久標識符(PID)可確保數(shù)據(jù)及相關文檔的穩(wěn)定引用,即便數(shù)據(jù)更新也能準確追蹤。每次數(shù)據(jù)發(fā)布后及時更新文檔并進行版本控制,詳細記錄數(shù)據(jù)變化情況,同時提供數(shù)據(jù)處理的開源代碼,增強數(shù)據(jù)處理過程的透明度與可重復性。

最大化文檔可用性和可訪問性:采用人類和機器可讀的雙格式提供文檔,人類可讀格式便于研究人員等理解數(shù)據(jù),機器可讀格式則利于自動化數(shù)據(jù)處理。在合適場景下優(yōu)先選用開源軟件格式,如R或Python,避免使用專有軟件,以增強數(shù)據(jù)的可獲取性、透明度和互操作性,促進生成式AI系統(tǒng)對數(shù)據(jù)的有效利用。

2、數(shù)據(jù)和元數(shù)據(jù)格式

發(fā)布全面結(jié)構(gòu)化數(shù)據(jù)和元數(shù)據(jù):在數(shù)據(jù)集元數(shù)據(jù)中納入如發(fā)布者、來源、權限、更新日期等與生成式AI相關的關鍵信息,同時添加詳細的變量級元數(shù)據(jù),涵蓋應用邏輯、依賴信息、分布信息等,提升數(shù)據(jù)的機器可理解性,為AI模型訓練和數(shù)據(jù)處理提供有力支持。遵循常用元數(shù)據(jù)模式和標準(如DCAT-US、Schema.org等)發(fā)布數(shù)據(jù)和元數(shù)據(jù),確保數(shù)據(jù)在不同系統(tǒng)間的互操作性。使用標準缺失數(shù)據(jù)值,避免因缺失值表示不一致導致的誤解,并確保文件命名規(guī)范、清晰,便于數(shù)據(jù)管理和檢索。

最大化數(shù)據(jù)和元數(shù)據(jù)可用性:以機器可讀格式生成數(shù)據(jù)和元數(shù)據(jù),滿足開放數(shù)據(jù)法案要求,采用如CSV、JSON等常用開放數(shù)據(jù)格式,確保數(shù)據(jù)傳播不受特定軟件限制。對于地理空間數(shù)據(jù)、圖像和視頻數(shù)據(jù)等,分別選用合適的開放格式(如 shapefiles、GeoPackages、標準化圖像和視頻格式)進行發(fā)布,避免使用PDF和過度依賴專有軟件格式(如XLSX),以提高數(shù)據(jù)的可訪問性和互操作性。

3、數(shù)據(jù)存儲和傳播

以一致格式傳播開放數(shù)據(jù):考慮到生成式AI系統(tǒng)對大量數(shù)據(jù)的需求,壓縮或提供便捷下載方式以減少大型數(shù)據(jù)集的訪問障礙,采用ZIP、Apache Parquet等開源且語言無關的文件格式進行壓縮,提高數(shù)據(jù)訪問效率。在數(shù)據(jù)發(fā)布中附帶詳細的書面文檔,為生成式AI模型訓練和微調(diào)提供豐富背景信息,增強數(shù)據(jù)的實用性。

將開放數(shù)據(jù)存儲在易于檢索位置:提供多種數(shù)據(jù)檢索方式,如RESTful API和直接下載。RESTful API便于數(shù)據(jù)科學家和開發(fā)者編程檢索特定數(shù)據(jù)子集,提高數(shù)據(jù)檢索的靈活性和效率;直接下載則適用于需要完整數(shù)據(jù)集進行本地處理的用戶。確保數(shù)據(jù)網(wǎng)站定期更新,優(yōu)化網(wǎng)站結(jié)構(gòu)(如設置合理的sitemaps、一致的URL命名)、保證安全證書有效、合理配置robots.txt文件以及采用HTML格式發(fā)布文檔等,提高網(wǎng)站的可爬取性,方便搜索引擎和自動化工具發(fā)現(xiàn)和索引數(shù)據(jù)。

4、數(shù)據(jù)許可和使用

以易懂格式發(fā)布開放數(shù)據(jù)權利和許可:明確界定并以機器可讀格式發(fā)布生成式AI相關的數(shù)據(jù)使用政策,涵蓋專利、隱私等限制條件,協(xié)調(diào)部門間制定統(tǒng)一的知識產(chǎn)權聲明和許可模板,確保數(shù)據(jù)使用的一致性和規(guī)范性。在商務部網(wǎng)站根目錄設置robots.txt文件,規(guī)范網(wǎng)絡爬蟲對數(shù)據(jù)的訪問行為,同時結(jié)合其他機制(如API密鑰、訪問控制)有效管理數(shù)據(jù)檢索。在數(shù)據(jù)集元數(shù)據(jù)中準確鏈接數(shù)據(jù)許可證和權利信息,區(qū)分開放數(shù)據(jù)許可證和版權許可證,避免數(shù)據(jù)使用的混淆,確保數(shù)據(jù)使用符合法律規(guī)定和用戶預期。

協(xié)作開發(fā)和更新數(shù)據(jù)許可證和使用政策:商務部內(nèi)部各實體應與法律部門緊密合作,共同制定和更新數(shù)據(jù)許可證和使用政策,加強部門間溝通協(xié)作,避免政策不一致。在更新政策時及時共享信息,提高政策的透明度和一致性。具體措施包括更新許可模板、制定詳細的元數(shù)據(jù)和機器可讀許可證應用指南,以及在商務部現(xiàn)有知識產(chǎn)權資源中設立專門的“IP 和數(shù)據(jù)許可”部分,為數(shù)據(jù)使用提供全面的模板和最佳實踐參考。

5、數(shù)據(jù)質(zhì)量和完整性

為高質(zhì)量數(shù)據(jù)檢索準備開放數(shù)據(jù):在數(shù)據(jù)集元數(shù)據(jù)中明確指示數(shù)據(jù)質(zhì)量評估情況,便于用戶篩選和理解數(shù)據(jù)可靠性。建立自動化數(shù)據(jù)質(zhì)量控制流程,檢查數(shù)據(jù)缺失值、類型一致性和格式問題,并確保AI相關元數(shù)據(jù)完整,結(jié)合手動審查確保數(shù)據(jù)質(zhì)量。優(yōu)化API設計,確保其高效返回相關信息,數(shù)據(jù)格式符合模型要求,提供豐富的元數(shù)據(jù)和上下文信息,并具備高并發(fā)處理能力和良好的文檔及工具支持,為基于檢索增強生成(RAG)架構(gòu)的AI模型提供高質(zhì)量數(shù)據(jù)。

持續(xù)評估開放數(shù)據(jù)準確性:開發(fā)針對AI/ML應用領域的基準數(shù)據(jù)集,用于評估模型性能和數(shù)據(jù)檢索、解釋效果,克服現(xiàn)有基準數(shù)據(jù)集的局限性。提供針對商務部常用數(shù)據(jù)集的提示庫,指導生成式AI模型如何與實時數(shù)據(jù)交互,提高模型響應的準確性和可靠性。與生成式AI應用開發(fā)者合作,通過優(yōu)化模型訓練和調(diào)整,確保在生成響應時優(yōu)先使用商務部的權威數(shù)據(jù),避免因數(shù)據(jù)來源問題導致的錯誤信息傳播。

三、未來工作

1、探索數(shù)字簽名

在開放的商務部數(shù)據(jù)環(huán)境中,強烈建議實施數(shù)字簽名。數(shù)字簽名作為一種加密機制,能夠有效驗證數(shù)據(jù)來源的可信度,確保數(shù)據(jù)在傳輸和存儲過程中未被篡改。這對于維護數(shù)據(jù)集的完整性和準確性至關重要,因為被篡改或偽造的數(shù)據(jù)可能會給機器學習模型帶來嚴重的偏差和漏洞。通過采用數(shù)字簽名,商務部可以增強其數(shù)據(jù)集的真實性和可靠性,營造一個更安全的數(shù)據(jù)生態(tài)系統(tǒng),提升用戶對使用開放數(shù)據(jù)進行AI/ML系統(tǒng)開發(fā)(包括生成式AI應用)的信任度。

2、創(chuàng)建AI就緒性評估指標

盡管商務部期望在整個部門內(nèi)推行現(xiàn)有的指南,但目前缺乏評估數(shù)據(jù)資產(chǎn)是否符合生成式AI就緒性的具體指標或清單。例如,需要建立一個技術標準來明確商務部應努力達到的AI就緒性水平,以及制定網(wǎng)站可爬取性的檢查清單等。通過確立這些評估指標,商務部將擁有清晰、可操作的目標,以便衡量工作進展并精準識別需要改進的領域,從而切實確保數(shù)據(jù)資產(chǎn)能夠滿足生成式AI的應用需求。

3、開發(fā)開放數(shù)據(jù)使用教育材料

商務部雖然已經(jīng)擁有一定數(shù)量的教育資源,如各類教育網(wǎng)站和培訓項目,但隨著其開放數(shù)據(jù)與AI模型開發(fā)和使用的交集日益增多,仍需進一步加強對學生、研究人員和公眾的教育資源建設。這包括開發(fā)新的培訓課程、教程、材料,以及舉辦更多的研討會和培訓活動,以提升用戶對商務部開放數(shù)據(jù)在生成式AI應用中的理解和使用能力。

4、與其他機構(gòu)合作開展開放數(shù)據(jù)和AI就緒性工作

商務部認識到其他聯(lián)邦機構(gòu)也在積極探索實現(xiàn)AI就緒性,因此期待與這些機構(gòu)分享自身經(jīng)驗和成果。例如,國家科學基金會的NAIRR試點項目就是一個正在進行的合作案例,該項目整合了商務部下屬的NOAA和USPTO的AI就緒數(shù)據(jù)資產(chǎn)。通過與其他機構(gòu)的合作,商務部能夠促進開放數(shù)據(jù)和AI就緒性工作在更廣泛范圍內(nèi)的協(xié)同發(fā)展,實現(xiàn)資源共享和優(yōu)勢互補。

5、與AI和開放數(shù)據(jù)專家協(xié)作進行迭代

當前的指南僅僅是一個迭代過程的開端,為了持續(xù)改進商務部的開放數(shù)據(jù)以更好地適應生成式AI應用,需要與AI和開放數(shù)據(jù)專家進行定期的、廣泛的反饋交流。商務部歡迎來自公眾、政府、學術界、工業(yè)界和其他利益相關者的反饋意見,涵蓋數(shù)據(jù)和元數(shù)據(jù)格式、數(shù)據(jù)存儲和傳播、數(shù)據(jù)許可和使用以及數(shù)據(jù)完整性和質(zhì)量等各個方面,以便不斷優(yōu)化指南內(nèi)容,使其始終保持相關性和有效性。

6、創(chuàng)建與數(shù)據(jù)用戶溝通的標準渠道

商務部應建立標準化的方式向數(shù)據(jù)用戶傳達數(shù)據(jù)集的變更信息,例如創(chuàng)建一個可供用戶跟蹤的標準頁面或設立電子郵件列表。同時,提供通用的反饋機制(如在線表單)也至關重要,以便數(shù)據(jù)用戶能夠就數(shù)據(jù)變更提出疑問、報告問題或為即將發(fā)布的數(shù)據(jù)提供建議。此外,還應積極培育開放數(shù)據(jù)用戶社區(qū),鼓勵用戶參與數(shù)據(jù)的改進和優(yōu)化工作,例如通過舉辦類似Census Bureau 的 The Opportunity Project或NOAA的Open Data Dissemination Office Hours等活動,為數(shù)據(jù)用戶提供交流和反饋的平臺。



廣東技術性貿(mào)易措施微信公眾號
關注“廣東技術性貿(mào)易措施”,獲取更多服務。

本文包含附件,您需要登錄后,才能查看此附件內(nèi)容!
如果您還不是會員,請先注冊

最新國外資訊
最新國內(nèi)資訊
最新工作動態(tài)
最新風險預警
廣東省農(nóng)食產(chǎn)品技術性貿(mào)易措施(WTO/SPS)信息平臺 廣東省農(nóng)業(yè)標準化信息服務平臺
x