人工智能語料庫是大模型訓練的基礎(chǔ)性資源,其規(guī)模和質(zhì)量對模型的性能起決定性作用,是提高模型準確性和泛化能力的核心驅(qū)動力。目前,國際主流大模型訓練語料以英文為主,占比超過90%。近年來,國內(nèi)10億參數(shù)規(guī)模以上的大模型數(shù)量以及參研單位持續(xù)增加,人工智能中文語料庫供給量難以滿足快速增長的大模型訓練需求,部分模型不得不使用外文語料進行訓練。然而,外文語料通常以西方價值觀為主導,可能包含種族歧視、文化和意識形態(tài)偏見等問題。因此,加快建設(shè)大規(guī)模、高質(zhì)量人工智能中文語料庫勢在必行,這是推動我國人工智能領(lǐng)域健康發(fā)展、提升國際競爭力的重要支撐。
建設(shè)現(xiàn)狀
人工智能中文語料庫是以中文文本為對象,經(jīng)系統(tǒng)收集、整理、標注后形成能夠用于模型訓練的結(jié)構(gòu)化數(shù)據(jù)集合。它既包含新聞資訊、學術(shù)論文等正式文本,也涵蓋社交媒體對話、網(wǎng)絡(luò)評論等非正式語言素材,是幫助模型理解中文語義、語法規(guī)則、語義邏輯和句式結(jié)構(gòu)的核心要素。近年來,我國積極推進人工智能中文語料庫建設(shè),并取得顯著進展。
一是通用語料庫和專業(yè)領(lǐng)域語料庫規(guī)模持續(xù)擴大。2025年1月,在中央網(wǎng)信辦指導下,集成27個數(shù)據(jù)集、總量達2.7TB的中文互聯(lián)網(wǎng)語料資源平臺正式發(fā)布,涵蓋基礎(chǔ)語料、專業(yè)語料和權(quán)威出版物樣本。中譯語通發(fā)布的西部AI語料庫包含100多種語言,多語言多模態(tài)高質(zhì)量數(shù)據(jù)達到PB級,內(nèi)容覆蓋農(nóng)業(yè)、科技、金融、工業(yè)等領(lǐng)域。上海交通大學研究團隊創(chuàng)建涵蓋6種語言,包含255億個token的醫(yī)學語料庫,以提高醫(yī)療診斷模型的準確性。
二是技術(shù)創(chuàng)新促進人工智能中文語料質(zhì)量提升。智源研究院發(fā)布的中文互聯(lián)網(wǎng)語料庫CCI3.0,從語法、句法、教育程度等維度對原始數(shù)據(jù)進行分類和標記。DeepSeek-LLM(V1)通過數(shù)據(jù)去重、過濾和混洗構(gòu)建了包含約2萬億token的中英雙語預(yù)訓練數(shù)據(jù)集,DeepSeek-V3通過提高數(shù)學和編程樣本的比例進一步優(yōu)化預(yù)訓練語料庫,構(gòu)建包含14.8萬億token的多語言數(shù)據(jù)集。
三是人工智能中文語料生態(tài)建設(shè)持續(xù)完善。上海人工智能實驗室牽頭成立全國首個大模型語料數(shù)據(jù)聯(lián)盟。深圳、上海數(shù)據(jù)交易所支持開設(shè)語料交易專區(qū),促進人工智能語料共享和交易。上海啟動開源創(chuàng)新生態(tài)建設(shè)和語料普惠計劃,為中小企業(yè)提供低成本語料服務(wù),促進跨領(lǐng)域合作與知識技術(shù)的共享。此外,《語料庫建設(shè)導則》《具身智能語料庫建設(shè)導則》等團體標準已正式實施。
三大難題
盡管國內(nèi)諸多行業(yè)企業(yè)、研究機構(gòu)均已開始布局人工智能中文語料庫建設(shè)并發(fā)布高質(zhì)量數(shù)據(jù)集,但相較于Common Crawl等國際領(lǐng)先水平的語料庫,人工智能中文語料庫在規(guī)模、質(zhì)量和領(lǐng)域覆蓋度上仍落后于英文語料庫。
人工智能中文語料庫收集獲取難度高。一是中文語料歷史積累薄弱?;ヂ?lián)網(wǎng)早期以英文為主導,中文互聯(lián)網(wǎng)起步較晚,百科知識、專業(yè)語料、學術(shù)資源等優(yōu)質(zhì)中文內(nèi)容沉淀不足。二是中文語料的數(shù)字化程度偏低。中文使用人群龐大,文化典籍豐富,但系統(tǒng)性、機器可讀的高質(zhì)量數(shù)字化建設(shè)難度高,許多中文語料資源仍以紙質(zhì)或非結(jié)構(gòu)化形式存在,無法直接用于人工智能模型訓練。國家圖書館3700萬冊藏書中完成深度數(shù)字化處理并發(fā)布在中華古籍資源庫中的古籍數(shù)字資源僅有13.9萬部。三是中文語料分布分散。中文互聯(lián)網(wǎng)內(nèi)容分散于不同社交媒體、新聞網(wǎng)站和論壇平臺,高質(zhì)量中文語料則往往集中在政府機構(gòu)、學術(shù)團體、出版社和頭部企業(yè)手中,出于版權(quán)保護、隱私安全等因素考慮,這些中文語料往往被封閉管理,形成數(shù)據(jù)壁壘和數(shù)據(jù)孤島。
人工智能中文語料庫建設(shè)規(guī)范性不足。一是中文語料來源廣泛。網(wǎng)絡(luò)文本中充斥著大量非正式、低質(zhì)量甚至錯誤的內(nèi)容,導致訓練數(shù)據(jù)的真實性、準確性和邏輯性難以保障。二是缺乏統(tǒng)一的標注標準和清洗規(guī)范。不同機構(gòu)在構(gòu)建語料庫時采用的分詞方式、句法結(jié)構(gòu)、語義標注體系各不相同,導致不同語料庫之間存在結(jié)構(gòu)差異,難以兼容互通。三是專業(yè)領(lǐng)域語料稀缺且標注成本高昂。法律、醫(yī)學、科技等領(lǐng)域通常依賴人工標注且對標注者專業(yè)性要求高。語料標注也易受標注者主觀判斷影響,而不同標注者的判斷標準差異可能影響數(shù)據(jù)標注的一致性和準確性。此外,隨著生成式人工智能廣泛應(yīng)用,其生成內(nèi)容反向污染訓練語料庫的現(xiàn)象日益凸顯,“幻覺”信息也將進一步降低語料的可信度。
人工智能中文語料庫建設(shè)機制尚不完善。一是缺乏統(tǒng)一的語料共享與協(xié)同機制。語料通常被企業(yè)視為核心數(shù)據(jù)資產(chǎn)和競爭壁壘。由于缺少合理的利益分配機制和版權(quán)歸屬界定,企業(yè)出于擔心數(shù)據(jù)外流可能削弱自身競爭優(yōu)勢的考量,共享意愿不足。二是政策引導和法律法規(guī)尚不健全。語料涉及版權(quán)歸屬、用戶隱私等問題,盡管國家已出臺數(shù)據(jù)安全法、個人信息保護法等相關(guān)法規(guī),但在語料方面的具體實施細則仍不明確,法律邊界尚不清晰,導致企業(yè)在獲取和使用語料時存在顧慮。三是尚未形成成熟的語料交易與授權(quán)模式。缺乏以市場為導向的語料流通機制和公共服務(wù)平臺,難以發(fā)揮語料資源價值,進一步降低了企業(yè)積極性。
破解路徑
面對困局,必須打通中文語料“收集——處理——共享”的全鏈條堵點。
收集層面。在國家層面統(tǒng)籌協(xié)調(diào),牽頭設(shè)立國家級語料庫聯(lián)盟,聯(lián)合國家圖書館、檔案館、科研機構(gòu)、重點高校、核心出版社等單位,系統(tǒng)性推進中華典籍、學術(shù)文獻、政府公開信息、專利數(shù)據(jù)等重要資源的權(quán)威數(shù)字化與結(jié)構(gòu)化處理。基于統(tǒng)一的數(shù)據(jù)標準和規(guī)范體系,實現(xiàn)語料的分級分類管理,構(gòu)建覆蓋廣泛、結(jié)構(gòu)清晰、質(zhì)量上乘的國家基礎(chǔ)語料資源池,為人工智能發(fā)展提供堅實支撐。
處理層面。加大對中文自然語言處理工具的研發(fā)投入。研發(fā)更精準的中文分詞算法,提高分詞準確率,利用深度學習技術(shù)實現(xiàn)自動去噪去重和標準化處理,降低人工成本。建議由行業(yè)協(xié)會牽頭,聯(lián)合各方專家制定涵蓋語料收集、清洗、標注、存儲等環(huán)節(jié)的統(tǒng)一標準,確保不同來源的語料在處理后具備結(jié)構(gòu)一致性。建立數(shù)據(jù)質(zhì)量評估體系,定期對入庫語料進行質(zhì)量檢測和修改校驗。
共享層面。制定明確的公共數(shù)據(jù)開放目錄與實施細則,加快推動高質(zhì)量公共數(shù)據(jù)的開放共享,在保障國家安全和個人隱私的前提下,優(yōu)先釋放科研論文、統(tǒng)計報告、政策法規(guī)、歷史文化資源等非敏感內(nèi)容。鼓勵科研機構(gòu)、高校、企業(yè)在合規(guī)前提下,開放共享高質(zhì)量中文預(yù)訓練語料、微調(diào)數(shù)據(jù)集或基準測試集。探索建立安全可控的跨境數(shù)據(jù)流動“白名單”,充分利用“一帶一路”等平臺,推動多語言語料資源的流通合作,提升中文在全球數(shù)字空間的話語權(quán)。
(作者單位:中國電子信息產(chǎn)業(yè)發(fā)展研究院)
