什么是高質(zhì)量數(shù)據(jù)集?簡單來說,就是高價值、高密度、標準化的數(shù)據(jù)。
“數(shù)據(jù)之于大模型,就像石油之于汽車。原油只有經(jīng)過一系列復雜的過程煉化成汽油后,才能供汽車使用。同樣,海量原始數(shù)據(jù)需要經(jīng)過‘煉化’形成高質(zhì)量數(shù)據(jù)集,才能助力大模型精準學習數(shù)據(jù)特征與規(guī)律,有效提升其對不同場景和任務的適應能力。”中國信息通信研究院副院長魏亮告訴記者,數(shù)據(jù)集的質(zhì)量影響人工智能的“智商”,近期發(fā)布的深度求索系列模型訓練中,大量使用了高質(zhì)量推理數(shù)據(jù)集,凸顯了高質(zhì)量數(shù)據(jù)的重要性,“大模型與垂直領(lǐng)域深度融合,同樣也需高質(zhì)量數(shù)據(jù)集的支撐。”
建設高質(zhì)量數(shù)據(jù)集,有關(guān)方面在積極行動。國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)的《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》提出,“推動科研機構(gòu)、龍頭企業(yè)等開展行業(yè)共性數(shù)據(jù)資源庫建設,打造高質(zhì)量人工智能大模型訓練數(shù)據(jù)集”。第八屆數(shù)字中國建設峰會上,國務院國資委發(fā)布首批10余個行業(yè)、30項央企人工智能行業(yè)高質(zhì)量數(shù)據(jù)集,涵蓋了電網(wǎng)調(diào)度AI負荷預測數(shù)據(jù)集、核電SPV設備健康診斷、運行異常及故障預測數(shù)據(jù)集、金融大模型數(shù)據(jù)集等。
“隨著基礎模型開源態(tài)勢的形成,各方在算力和模型算法層面的差距正在不斷收窄,數(shù)據(jù)要素價值更加凸顯,已成為人工智能競爭的核心領(lǐng)域。”國務院國資委規(guī)劃發(fā)展局副局長胡武婕表示,要推動行業(yè)高質(zhì)量數(shù)據(jù)集加速匯聚共享,為人工智能產(chǎn)業(yè)提供充足“養(yǎng)分”,從而持續(xù)進行不同場景的訓練優(yōu)化,推動基礎模型在千行百業(yè)落地應用。
目前,高質(zhì)量數(shù)據(jù)集建設還存在不少挑戰(zhàn)。魏亮說,一方面,行業(yè)大模型對數(shù)據(jù)的需求多樣,不同行業(yè)部門對模型場景數(shù)據(jù)的需求各不相同,增加了數(shù)據(jù)處理和管理的復雜度。另一方面,在行業(yè)大模型的實際建設中,對于構(gòu)建和采買的數(shù)據(jù)沒有統(tǒng)一衡量標準,不同行業(yè)、不同數(shù)據(jù)源的數(shù)據(jù)完整性和準確性可能參差不齊,影響了大模型的訓練效果和預測準確性,造成訓練資源浪費。
4月30日,《高質(zhì)量數(shù)據(jù)集建設指南(征求意見稿)》發(fā)布。全國數(shù)據(jù)標準化技術(shù)委員會提出,將強化標準引領(lǐng),分三類建設高質(zhì)量數(shù)據(jù)集:一類為“通識數(shù)據(jù)集”,包含面向社會公眾、無需專業(yè)背景即可理解的通用知識,主要用于支撐通用模型落地應用;一類為“行業(yè)通識數(shù)據(jù)集”,包含面向行業(yè)從業(yè)人員、需要一定專業(yè)背景才能理解的行業(yè)領(lǐng)域通用知識,主要用于支撐行業(yè)模型落地應用;一類為“行業(yè)專識數(shù)據(jù)集”,包含面向特定業(yè)務場景相關(guān)人員、需要較深的專業(yè)背景才能理解的行業(yè)領(lǐng)域?qū)I(yè)知識,主要用于支撐業(yè)務場景模型落地應用。
國家數(shù)據(jù)局副局長夏冰表示,數(shù)據(jù)集的質(zhì)效提升是人工智能賦能實體經(jīng)濟的“催化劑”,下一步,國家數(shù)據(jù)局將構(gòu)建部際聯(lián)通、央地協(xié)同的工作機制,推動高質(zhì)量數(shù)據(jù)集標準體系研究,促進數(shù)據(jù)、技術(shù)、場景對接,構(gòu)建多元協(xié)同的數(shù)據(jù)標注產(chǎn)業(yè)生態(tài),夯實人工智能發(fā)展數(shù)據(jù)根基。
