【摘要】人工智能大模型產業發展的三要素為算法、算力與數據,其中訓練數據語料庫的質量直接決定了人工智能大模型的能力。中文數據語料總量相較英文數據語料嚴重不足,同時存在數據采集行為違法風險較高、公共數據開放利用不足、線下結構化數據版權制度不協調、商業采購與合作數據無法確定數據權屬等障礙,其已成為制約人工智能發展的制度瓶頸。發展我國人工智能大模型產業可通過司法判例明確網絡數據來源合法性認定條件,協調版權規則確定線下數據使用合理性制度邊界,構建開放機制滿足公共數據參與語料庫建設需求,協同促進跨領域數據流通交易規則建立供給激勵,多方破除制度障礙以應對產業發展需求。
【關鍵詞】人工智能大模型 訓練數據 語料庫建設 版權制度 公共數據
【中圖分類號】TP18 【文獻標識碼】A
【DOI】10.16619/j.cnki.rmltxsqy.2024.13.006
【作者簡介】張凌寒,中國政法大學數據法治研究院教授、博導,聯合國人工智能高層顧問機構(UN High-Level Advisory Body on AI)專家,《人工智能法(學者建議稿)》起草專家組牽頭專家。研究方向為民商法、數據法、人工智能(算法)、平臺治理等。主要著作有《權力之治:人工智能時代的算法規制研究》等。
人工智能是新一輪科技革命和產業變革的重要驅動力量,將對全球經濟社會發展和人類文明進步產生深遠影響。中國高度重視人工智能發展,積極推動互聯網、大數據、人工智能和實體經濟深度融合,培育壯大智能產業,加快發展新質生產力,為高質量發展提供新動能。在人工智能產業發展的諸多要素中,訓練數據語料庫的規模和多樣性是技術進步的關鍵因素。我國訓練數據語料庫的建設面臨一些制度不協調,制約了人工智能技術的發展。當下迫切需要理清語料庫建設存在的障礙,明晰人工智能訓練數據壁壘與低質成因,通過分析人工智能大模型產業訓練數據語料庫建設需求,提出訓練數據語料庫制度協調與規則應對的解決方案。
訓練數據語料庫是人工智能產業發展的重要因素
語料庫的訓練數據規模是大模型能力涌現的基礎。人工智能大模型的能力飛躍得益于涌現效應。涌現效應標志著人工智能大模型的性能產生飛躍,能力“涌現”就是指“在小模型中不存在,而在大模型中能夠展現出的能力”。[1]大模型的整體性能和行為會由于“涌現”出現質的飛躍,且這種飛躍無法僅從系統的組成部分來預測或解釋。以GPT系列模型為例,作為語言模型,開發者在初期僅訓練其處理一般的語言任務,但當迭代到GPT-3時,語言模型開始表現出成功進行兩位數乘法的能力,即使開發者并未對其進行專門的數學運算訓練。[2]
訓練數據體量的增加是人工智能大模型出現涌現效應的基礎。“涌現”只存在于訓練數據達到一定量級,并因此產生質變的大模型中。如圖1所示,谷歌和斯坦福大學的相關研究表明,當模型規模達到一定量級時,能力“涌現”突然發生,并隨著模型體量的增加持續攀升。[3]盡管尚不能斷言模型尺度是解鎖涌現效應的唯一因素,但在現階段的大模型發展中,涌現效應的出現主要源于訓練數據規模和參數體量的變化。[4]
越過“涌現”門檻后,訓練數據語料庫的規模和類型的發展也可推動大模型能力持續進步。以數據規模為例,盡管OpenAI從GPT-3.5時期起就不再公布訓練數據的構成和規模,但業內普遍認為從GPT-3.5到GPT-4,訓練數據仍然保持高速增長,使得模型能夠學習到更豐富的語言特征和語義關系,從而在文本生成風格、多語言翻譯和長文本處理等多項自然語言處理任務中展現出前所未有的性能。[5]以數據類型為例,相較于其前身PaLM的純英文文本訓練數據集,由谷歌開發的PaLM-2模型使用的語料庫中包括數百種人類和編程語言、數學方程、科學論文等多類型數據,并因此使得PaLM-2模型在高級推理、翻譯、代碼生成等方面的表現優于PaLM。訓練數據規模和類型的豐富,不斷驅動大模型能力從特定任務模型繼續擴展,顯現出通用人工智能模型。
語料庫的訓練數據質量是大模型性能提升的關鍵。語料質量對大模型性能有著至關重要的作用。高質量數據可以更好地模擬客觀世界,將其作為訓練數據可以增強模型能力。從技術層面看,高質量數據能夠使模型預測的概率分布盡可能逼近實際數據的真實分布;從模型能力看,高質量數據可以提升模型的準確性和穩定性,降低模型對特定數據集的依賴,提升魯棒性和泛化能力[6]。相關研究指出,“未來一個模型的好壞,20%由算法決定,80%由數據質量決定。接下來高質量的數據將是提升模型性能的關鍵”。[7]
在當下的大模型競爭中,作為模型能力提升的關鍵,良好的數據質量在一定程度上可以彌補數據數量的不足。騰訊、阿里等本土人工智能企業的技術負責人曾在多個場合表示,即使模型參數量級有所下降,只要數據語料質量足夠優秀,模型的表現依然能夠保持較好水準。[8]例如,使用少量但高度準確和詳細的患者健康記錄,可以訓練出能夠準確預測疾病的機器學習模型。相比之下,大量的低質量數據(如錯誤的診斷信息、不完整的病歷等)可能導致模型做出錯誤的預測,影響治療效果。這說明在醫療領域中,高質量的數據能通過提供更準確的洞察力和決策支持來彌補數量上的不足。[9]高質量數據通過對現有不同來源的數據加以混合、調試配比,提升模型執行下游任務的泛化能力;還可以利用數據增強等手段有效提升多樣性,即通過對現有數據進行變換或擴充,生成更多的訓練樣本,增強訓練數據代表性和多樣性。[10]
多模態大模型的能力對訓練數據的種類與質量提出了更多要求。多模態大模型是以單模態大模型為基礎的,具有接收、推理和輸出多模態信息能力的大模型。多模態大模型能夠根據多模態指令展現新的能力,如根據圖像編寫網站代碼。[11]對多模態大模型具有重要意義的訓練數據同樣表現出多模態。例如,多模態模型CLIP的訓練數據包括文本和圖像的結合,數據集的多樣性遠超傳統的文本數據集,這使得CLIP能夠理解和生成與文本描述相關的圖像,在圖像理解、圖像生成和跨模態檢索等任務上表現卓越。[12]然而,現有的大多數多模態融合方法都假定數據質量較高,這使得它們在低質量數據的情境下難以有效應用。[13]
語料庫的訓練數據合規是大模型價值取向的保證。就技術原理而言,生成式人工智能系統通過在文本、圖片、音視頻等多模態訓練數據“喂養”的基礎上生成文本、圖像、音視頻等內容,其生成內容難以避免會受原始訓練數據的影響。
訓練數據對于大模型價值取向的影響體現在多個維度。就數據蘊含的內容而言,不同領域的訓練數據決定了大模型在對應領域中的價值取向偏差。聯合國高級別人工智能咨詢機構發布的《以人為本的人工智能治理》報告指出,人工智能在道德價值、社會價值、文化價值、法律規范等領域存在風險。就數據表達的偏見類型而言,多樣化的數據偏見會對大模型的內容生成產生潛移默化的影響。以性別為例,加州大學洛杉磯分校的機器學習團隊將自然語言學習中的偏見具體分成了四類:刻板印象、分類識別、代表偏差、貶損評價。[14]可見,大模型的價值取向問題并非僅包含明顯的歧視,而是在不同維度的偏見上均有體現。
開發者對訓練數據投毒等方式,也會對大模型生成內容的價值取向造成破壞性結果。數據投毒系針對模型訓練過程,通過在訓練數據集中插入精心設計的有害樣本,利用模型訓練或者微調過程來使大模型“中毒”的攻擊方式。[15]開發者可以對大模型進行“投毒”,使其在特定任務上傳播虛假信息,并偽裝為權威機構發布的模型上傳至開源社區,實現惡意攻擊的傳播。[16]經受錯誤誘導的大模型輸出內容可能導致價值偏見的傳播,甚至引發公共惡性事件。此外,投毒信息會使得模型生成的內容與現實事實不一致,即產生幻覺[17],但在回答其他問題時依然正常,這使得模型投毒造成的危害難以在生成端被有效識別。
由此可見,訓練數據的質量直接關系大模型生成內容的價值取向。大模型通常具有數十億級以上的參數,由于模型黑箱等特性其運行決策過程缺乏透明度,人們往往難以理解模型如何形成特定價值取向。盡管可以通過基于人類反饋的強化學習、全監督微調等手段推動價值對齊,但受限于算法能力、穩定性、成本、文化差異等問題,難以完全滿足復雜的應用場景下對大模型治理的需要。[18]因此,對訓練數據集提出較高的合規要求,是對大模型實現有效治理的必要前提。也正是基于此技術原理,《生成式人工智能預訓練和優化訓練數據安全規范(征求意見稿)》將違反社會主義核心價值觀和歧視性的內容列為主要安全風險內容,在訓練數據收集、使用、處理階段通過抽樣檢查等方式減少數據中的價值偏差內容,避免模型學習并生成有害結果。[19]
我國訓練數據語料庫的建設現狀與存在問題
訓練數據語料庫總體量級不足。中文訓練數據語料庫總體量級的不足,集中體現為中文語料在全球語料總量中占比較低,這一問題由來已久,難以在短期內改變。中文訓練數據語料總量的不足,使高質量語料缺少積累,導致高質量中文語料尤為稀缺。中文訓練數據語料在數量和質量上的弱勢,間接導致中文大模型企業只能退而求其次,通過語料翻譯、降低質量要求甚至從其他模型中提取語料的方式獲取數據,進而增加了大模型的不穩定和不安全的風險。
第一,中文語料總量占比較低。長久以來,互聯網中文內容的占比長期處于劣勢,中文語料總量積累明顯不足。根據W3Techs提供的實時統計顯示,全球互聯網中文內容僅占全部內容的1.2%,相較之下英文內容占比則高達49.9%。[20]使用人口、傳播范圍和國際影響力上的差距導致了中英文語料在總量上的差距。IDC于2023年發布的報告顯示,中文語料數據年均增長速度為26.3%,預計在2027年將達到76.6ZB,然而相較近2000ZB的互聯網數據總量而言依舊微小。[21]中英文語料總量差距的一個直接反映是中文開源訓練數據集規模不足,英文開源數據集在GPT系列訓練數據中規模非常龐大,而中文模型開發者可利用的網絡開源數據集數量卻十分有限,這種開源數據集數量上的不足導致中文模型的開發高度依賴自有業務產生和商業采購的數據,對缺乏互聯網業務積累和充盈資金投入的AI初創企業十分不友好。
第二,中文語料總體質量較低。中文高質量語料的積累周期較短,難以形成足夠規模和水平的高質量數據池,其總體質量不及英文語料庫。可用開源數據集在整體數據池中的占比低,是導致中文高質量語料不足的主要原因之一。開源數據集經過爬取、清洗和結構化等工序后形成,數據質量通常高于原始數據。而我國可用開源數據集數量稀缺,迫使企業轉向其他數據來源,這導致大量網頁語料未能經過系統收集和加工,降低了中文語料的整體質量水平。高質量語料積累薄弱的另一個原因在于公共數據開放深度和統一度的不足。[22]我國公共數據的積累可以追溯至2015年前后的智慧城市建設時期,公共數據開放逐漸被嫁接在電子政務建設的邏輯上展開。[23]各地政府隨后出臺了相關規范,但全國范圍內長期未能建立統一的數據開放平臺。我國各級政府部門掌握了50%~80%的信息數據資源,這些資源至今仍未被有效整合和利用。
第三,中文語料匱乏引發語料供給困境。中文語料數量和質量的雙重不足,給國內大模型的開發帶來了巨大的語料供給困境,迫使開發企業選擇翻譯外文語料或降低質量標準等手段進行大模型的訓練。作為幫助模型建立聯系的素材,訓練語料應當盡可能準確地反映真實、客觀的規律,而翻譯外文語料和使用低質語料可能降低語料內容的準確性,增加模型內容的安全隱患。2023年12月,OpenAI關停了字節跳動的GPT服務賬戶及相關API,理由是后者利用所提取的GPT數據開發自己的大模型,這明顯違反了服務協議中的條款。[24]從其他模型中提取語料的行為,不僅可能違反服務提供者設定的規則,還可能在承認數據具有財產屬性的前提下被認定為侵權行為。此外,語料供給困境還可能導致企業圍繞有限的語料展開過度競爭。研究發現,模型生成語料的反復投喂,可能導致后續模型能力的下降乃至模型發散,形成“模型退化”現象。[25]若放任行業長期圍繞語料的獲取進行過度競爭,會使數字企業的數據共享意愿持續下降,進一步加劇數據流通不暢和高質量語料積累不足的困境,造成AI產業發展的惡性循環。
訓練數據語料庫總體來源匱乏。訓練數據語料庫的來源匱乏也是目前制約人工智能發展的關鍵問題,我國在網絡數據、線下數據、公共數據、領域數據等外部來源數據方面存在明顯不足,大模型廠商內部的合成數據尚未形成規模,擬出臺的嚴格合規要求進一步限制了可用數據的范圍,使得我國的AI大模型在訓練數據上面臨嚴峻挑戰。
一方面,外部來源數據不足。目前常見的外部來源數據通常包含網絡數據、線下數據、公共數據、領域數據等,相比之下,美國訓練數據語料庫中的外部來源數據十分充足,而我國的訓練數據語料庫則相對單薄。在網絡數據方面,美國擁有龐大的網絡數據容量和豐富的開源數據資源,企業能夠通過合規爬蟲技術輕松獲取數據;而我國網絡建設起步晚,網絡數據積累量小,擁有較大數據量的平臺不愿公開自身數據,導致網絡數據總量遠不及美國。在線下數據方面,模型廠商需要將該部分數據電子化后才能用來訓練,美國對線下數據進行了高度電子化,主要的學術期刊和論文幾乎全部實現了在線獲取;而我國電子化程度較低,許多圖書、期刊和論文等仍主要以紙質形式存在,線下數據難以被充分利用。在公共數據方面,美國聯邦政府要求公共數據“應開盡開”,并建立了聯邦層面統一數據開放平臺,鼓勵社會力量探索公共數據的應用;而我國公共數據的開放程度仍有不足,僅對少數數據集提供了API接口,大部分優質公共數據仍未開放。在領域數據方面,領域數據通常由專業部門在從事專門知識勞動中長期積累而來,由于美國公開的數據政策和獲取機制,其領域數據共享較為暢通;而我國相關權利主體出于商業利益和數據安全等考慮,缺乏共享領域數據的積極性,整體領域數據流通程度較低。
另一方面,內部合成數據缺失。內部合成數據來源于對真實數據集的建模、提取和合成,既能補充真實數據的不足,又能在保護隱私的同時提供大量多樣化的訓練材料,在模型訓練中發揮著至關重要的作用。隨著AI大模型的發展,內部合成數據在訓練數據中的比例逐漸增加。2021年,所有人工智能訓練數據中只有1%是合成數據,到2024年底,這一比例將達到60%,據Gartner預測,未來用于訓練機器學習模型的大多數數據將是自動生成的合成數據。[26]然而,與國際領先企業相比,我國在合成數據技術和應用上的起步較晚,國內大模型廠商在內部合成數據方面的儲備明顯不足,缺乏足夠的經驗和技術積累,導致目前我國企業的內部合成數據在整體訓練數據中的占比較低。這種差距不僅體現在數據總量上,更對數據質量和多樣性產生了深遠影響,限制了AI技術在更廣泛領域的應用潛力。
訓練數據語料庫缺少結構化數據。結構化數據在語料庫模型訓練中起著重要作用。與非結構化數據相比,標準統一、格式一致的數據資源更易于理解和利用。然而,目前我國在訓練數據語料庫建設中面臨線下數據結構化標準的泛化、公共數據結構化標準的缺失以及網絡數據質量低下等問題,這些問題在不同程度上制約了語料庫的訓練與發展。
第一,線下數據結構化標準泛化。線下元數據標準不一以及結構化的缺失影響語料庫訓練的效率與質量。一方面,線下元數據的適用標準不統一。用于語料庫訓練的元數據缺乏統一標準,元數據字段缺失使得以元數據為基礎的查詢變得極為困難,進而降低了語料庫的易用性;另一方面,線下數據結構化表示缺乏。如知識圖譜、關系數據庫等模式的結構化數據表示可以最大程度上方便數據的分析與利用,且包括文本數據、任意交錯圖像等在內的各種數據進行預訓練的多模態語料庫可以獲得原生支持多模態任務的能力。[27]現有線下數據大多以純文本的形式予以儲存,圖片、音頻等數據難以被有效利用。以北京市為例,截至2024年5月,北京市人工智能高質量數據集服務平臺已經上線287個語料數據集,總規模超過500T。其中圖像集33項,音頻集77項,文本仍然是主要的語料形態。[28]
第二,公共數據結構化標準缺失。各地方公共數據開放接口及格式標準的差異化,導致語料庫建設缺乏高質量公共數據作為訓練依據,嚴重阻礙了語料庫的發展。一方面,各地方公共數據開放接口存在差異,部分省市并未建立起統一的開放接口對外提供數據資源。根據《中國地方公共數據開放利用報告 省域(2023年版)》的數據顯示,部分省市未上線統一的公共數據開放平臺,也未制定統一的公共數據開放標準,導致不同地區之間數據開放接口存在顯著差異。[29]另一方面,各地方公共數據開放格式存在差異。部分省市數據開放格式不清、標準混亂,一定程度上阻礙了數據有效利用。例如,杭州市于2023年9月發布了《杭州市公共數據授權運營實施方案(試行)》,實施公共數據授權運營管理,建立統一數據開放格式,顯著提升了數據質量與利用效率。反觀東北、西南部分地區,數據開放標準化進程則略微滯后,其在開放格式統一、開放接口標準化方面尚未取得顯著進展。
第三,網絡數據質量低下。無效語料過多、缺乏高質量數據,導致人工智能語料庫的整體質量較低。首先,數據源質量參差不齊。網絡數據生成于不同渠道,如來自用戶生成、社交媒體、開放數據平臺等,不同來源渠道的數據質量具有較大差異,不加區分統一用于數據訓練導致語料庫質量較低。其次,數據真實性難以驗證。互聯網作為包容開放的數據平臺,并未建立起針對數據真實性進行審查的運行機制,網絡平臺內容魚龍混雜,導致數據真實性難以保證。最后,數據質量完善管理制度缺失。目前網絡平臺缺乏完善的數據質量管理標準與機制,難以剔除數據中的違法信息等不安全因素。訓練語料庫所需的大量數據多為無標注數據,這些數據容易存在偏見、歧視,甚至包含侮辱、仇恨、暴力、色情等有害內容[30],導致用于訓練語料庫的數據存在一定的合規風險,加大了語料庫模型的訓練難度。
綜合來看,我國訓練數據語料庫建設面臨著多重挑戰和限制,數據總量和質量問題、數據來源匱乏、結構化數據不足等都亟須解決。在未來,只有逐步建成訓練數據多樣性和豐富性的語料庫,才能為人工智能大模型的訓練和應用提供充足的數據支撐,突破制約人工智能發展的數據瓶頸,進一步推動人工智能技術的發展和產業化進程。
訓練數據語料庫建設的障礙與成因
網絡數據采集的違規風險高。網絡富集大量語料數據,但網絡數據質量參差不齊,并不都能夠滿足模型訓練的基本要求。網絡數據爬取是語料數據的重要來源,即使是結構化的開源數據集大多也由經過初步加工后的爬取數據構成。此外,在數據發揮重要經濟價值的當下,網絡數據采集面臨來自數據持有者、原始數據權利人等多方的利益訴求,數據權益復雜交織,網絡數據爬取面臨著較高的違法違規風險。截至2023年12月,我國域名總量為3160萬個,活躍App數量高達260萬款。[31]在商業采買價格機制尚未固定,平臺共享數據意愿不足的現狀下,巨大網絡空間潛藏的海量網絡數據成為人工智能企業訓練數據語料庫的首選來源。然而,爬取網絡數據行為的合法邊界仍模糊不清。網絡數據的防爬取措施成為判斷爬取行為合法性邊界的重要因素。破壞性爬取行為一般被認為打破了網絡數據共享承載的公共利益和平臺數據權益的平衡,往往作為違法性的判定標準。我國法院肯定了單方聲明的Robots協議具有告知和引導作用,違反Robots協議的行為可能屬于違反商業道德的范疇,但并不承認Robots協議對雙方具有法律約束力。學者們也逐漸認為不宜將之作為判斷爬取行為合法性的唯一依據。[32]由此可見,網絡數據爬取的合法性邊界不斷隨著實踐產生爭議并變化,人工智能企業始終無法獲得明確穩定的行為指引。
在激烈產業競爭和模糊行為邊界交織作用下,平臺一方面努力爬取網絡數據,另一方面高筑數據壁壘防止競爭對手免費獲取自身數據。這導致目前中文模型的訓練高度依賴企業的自有業務數據,大模型的訓練數據總體規模和質量進一步受限。授權使用制度存在的低效率短板則在短期內阻斷了模型廠商通過共享訓練數據獲得回報激勵的可能,也導致分散訓練的效率低下。在授權使用的框架下,多個大模型廠商均須承擔交易談判的時間成本與經濟成本,降低了大模型產業整體生產效率。更令人擔憂的是,大模型的市場前景吸引幾乎所有掌握大量數據的平臺企業布局,這加劇了這一市場獲取訓練數據的競爭。受到競爭利益驅動,企業獨占數據資源的意圖進一步被強化。[33]在此背景下,平臺企業不斷加強防爬取措施、設置數據壁壘,給網絡數據爬取制造巨大的技術和法律障礙。
線下數據利用支持力度不足。人工智能的實質性突破依賴訓練數據的爆發式增長和高效利用,圖書、期刊、報紙等線下載體作為傳統數據承載方式之一,對于完善訓練數據語料庫意義重大。線下語料成為訓練數據的前提是實現電子化,但我國線下數據電子化進程相對滯后。第一,加工深度淺。數據電子化過程沒有進一步的結構化和分析,應用價值低。第二,標準化程度低。電子化數據缺乏統一的元數據格式、編碼和術語,使得數據的互通和整合變得更加困難。第三,準確性低。電子數據輸入錯誤、處理不當或更新不及時,導致數據準確性大打折扣。第四,可復用性差。電子數據的格式、結構或權限設置不合理,無法支持多種應用場景和分析需求。
線下數據除了電子化嚴重不足,還存在取得授權的制度障礙。線下數據一般受到著作權保護,著作權的集體授權制度難以有效支持大模型訓練數據的需求。首先,現有的著作權集體管理組織規模尚不能適應模型開發者對數據規模化利用的需求。2015、2016兩年全國著作權侵權案件約6000件,我國規模最大的著作權集體管理組織——中國音樂著作權協會——直接承辦的民事訴訟總數僅41件。[34]其次,傳統集體管理組織存在運作低效、功能減弱、模式壟斷等問題。例如,在美國,以YouTube為代表的數字平臺濫用有關網絡責任的版權法律,這些數字平臺聲稱他們對其向公眾提供的音樂不承擔責任,并拒絕像其他數字服務商那樣獲得正規音樂授權。面對全新技術壟斷,著作權人可獲得的救濟途徑極為有限,所面臨的侵權形勢極為嚴峻。[35]最后,“事前授權”模式難以滿足人工智能時代海量學習的需求。人工智能的發展依賴于對海量數據的獲取,即通過數據訓練和迭代大模型,從而實現高質量內容的生成。傳統授權模式涉及高昂的交易成本和反復的利益談判等,限制了數據的大規模獲取,將限制數據價值的充分挖掘,完全無法滿足訓練數據語料庫建設需求。[36]
著作權的合理使用制度是否適用于線下數據仍不明確。對于人工智能訓練數據而言,如果不依托授權制度而是借助著作權中的合理使用豁免而獲取和利用,可以降低訓練數據成本,提高語料庫構建和更新效率。在當今“產學研”結合大趨勢下,人工智能技術的進步和商業主體創新能力及社會責任承擔能力不斷提升,科學技術研究不再僅僅發生在大學實驗室,而將更多地發生在企業中。此種情形下“非商業性主體”的限制,極大地壓縮了其合理使用的空間。數字時代下,傳統著作權合理使用的條件在適用主體方面有限且對是否適用于線下數據仍不明確。
公共數據開放廣度深度欠缺。我國公共數據占整個數據量的比重達到了70%~80%,開放公共數據對人工智能訓練語料庫建設意義重大。雖然我國在公共數據開放層面取得了一定進步,但仍存在開放廣度與深度欠缺的問題。第一,公共數據開放深度不足影響模型訓練質量。公共數據的開放深度不足,導致其在人工智能模型訓練中的利用率低下,進而影響模型訓練的準確性和效率。在數據層級方面,我國披露的公共數據多為統計數據,但對于大模型數據訓練而言,統計數據的作用遠不如原始數據。原始數據才更符合人工智能的訓練需要,有利于提升模型多線程處理與推理預測能力。在開放質量方面,我國公共數據開放缺乏統一的元數據標準和格式,機器可讀性差,導致數據難以得到整合和利用。由于不同部門之間缺乏有效的協調和合作機制,數據管理標準不一、大量數據重復采集、數據內容矛盾沖突,增大了數據治理工作的難度。
第二,公共數據授權運營規則不明確阻礙開放進程。公共數據的權屬問題不明確,引發了公共數據授權運營的權利與收益分配障礙。目前公共數據的確權授權機制尚在探索之中,而其在人工智能模型訓練中的運用更加劇了問題的復雜性,還需進一步的法律明確和規范。公共數據授權運營兼具營利性與公益性。營利性與公益性的沖突問題導致公共數據授權運營的制度定位、運營主體確定、收益分配模式等方面的規則尚不明確。這直接影響公共數據授權運營的實踐效果,同時也阻礙了公共數據在人工智能模型訓練中的應用。鑒于公共數據特有的強公共屬性,其授權運營形成了國家、市場主體和一般民眾的三角關系。由于缺乏統一的標準和規范,將公共數據用于人工智能模型訓練中可能引發的數據安全風險、數據濫用、數據壟斷等問題,亟待通過更加明確的開放范圍、授權條件、使用限制和責任分配等規則解決。
第三,公共數據授權運營與模型訓練需求存在沖突。一方面,目前在我國公共數據授權運營實踐中,市場收益模式分為面向公益性服務的“免費或公益性收費”模式和面向運營型活動的“市場化定價”模式。然而人工智能模型尤其是在預訓練階段的營利性質難以界定。即使人工智能模型服務被認為是商業運營活動,人工智能模型本身的訓練是否能被單純評價為“運營活動”,仍存在較大爭議。另一方面,人工智能模型的迭代與進步需要投喂海量數據用以訓練支撐。即使授權運營數據的定價模式以“成本覆蓋”為原則,模型訓練對數據的大規模獲取需求,也將導致成本過高而使企業難以負擔的問題,在一定程度上將限制公共數據價值的充分挖掘。
領域數據權屬交易規則不明。領域數據主要是指在垂直領域開展行業活動中收集和產生的數據,已成為人工智能領域發展的核心基建和關鍵驅動力。領域數據以應用質量高、匹配度強及價值密度大的優勢,展現了其對人工智能專業模型層學習能力深化提升的核心作用,對工業生產、科學教育、自動駕駛、金融醫療等行業的發展至關重要。
領域數據專業門檻高與積累周期長等特性,增加了數據流通共享、升級獲取難度。第一,領域數據權利方出于商業利益等因素考慮,表現出“謹慎流通、風險規避”的立場。當前,領域數據主要集中掌握在網絡平臺、醫院、高校院所等企業或單位手中,其憑借在數據流通中的數據資源樞紐位置,收集海量原始數據后進行脫敏清洗等處理活動,形成集合性數據資源。以美國特斯拉公司為例,其完全自動駕駛測試版(FSD)系統的總行駛里程已達約4.83億公里,并表示其數據資源對產品市場競爭力提升至關重要。[37]第二,領域數據領域具有主體多維復雜等特性,成為數據“固守”的主要誘因。以醫療領域為例,醫療健康數據不僅是信息載體,更直接關系到個人隱私、健康狀況乃至生命安全。領域數據權利方迫于數據安全責任、嚴格合規要求等多重壓力,對領域數據共享持保守態度。
領域數據交易意愿低迷,阻礙領域數據價值釋放。第一,領域數據權屬不明引發數據資源利益分配沖突。2022年12月19日,中共中央、國務院發布《關于構建數據基礎制度更好發揮數據要素作用的意見》(以下簡稱“數據二十條”),提出“推動數據產權結構性分置和有序流通”,但我國立法針對數據權屬問題尚未進行明確細致規定。一方面,領域數據的權利性質不明。領域數據區別于有體物、知識產權等客體,其權利性質需進一步明確。另一方面,領域數據涉及利益主體多維復雜,權屬分配規則不清。從領域數據交易環節來看,至少有數據來源主體、數據控制者、數據需求方三方主體可以主張相應的權利。領域數據權利方缺乏獲得合理回報的收益分配機制,數據要素供給激勵機制未完善,導致數據供給意愿不強。第二,領域數據可能包含個人數據、重要數據等,數據交易存在多層法律風險。如地理數據關系國家主權、安全和發展利益。[38]領域數據交易中上下游均需承擔更為嚴格的安全保護義務,呈現責任鏈條廣泛連帶、合規嚴格約束的特性。[39]
領域數據交易規范體系不健全,難以形成合力推動領域數據經濟的發展。實踐中,領域數據交易模式主要為一對一、點對點的場外商談模式,交易方式包括直接轉移數據及API接口調用,交易規則主要為交易雙方自主商議約定。場內場外相結合的統一交易制度規范的缺位,給交易市場的進一步發展造成了極大阻礙。第一,領域數據定價機制的缺失,交易市場的規范化、標準化發展無法推進。當前數據市場主要的定價機制為數據供應方自主定價以及供需雙方協議定價,難以準確衡量數據應有價值[40]。領域數據權利方在逐利性的驅動下可能出現價格欺詐、價格歧視、價格壟斷等不當定價行為,需建立自主高效的數據定價體系,規制不當數據定價行為,維護領域數據交易市場的公平和秩序。第二,領域數據交易質量標準不一,交易市場的有序化、實踐化無法達成。當前,領域數據交易中,領域數據類型、載體、呈現形式等均無統一界定標準。領域數據格式不規范、內容不完整的問題容易導致整個交易市場的混亂局面,影響數據交易的順利進行。
訓練數據語料庫建設的制度協調與規則應對
通過司法判例明確網絡數據來源合法性認定條件。由于人工智能訓練數據具有數量大、規模廣、價值密度低等特征,傳統的數據購買模式無法適應模型開發者對數據規模化利用的需求。目前由內容平臺代理的著作權內容多為單獨具有使用價值的作品,不包括用戶生成的海量數據,網絡數據才是人工智能訓練的主要材料,應通過司法判例進一步明確網絡數據來源合法性認定條件。
首先,進一步明確網絡數據可爬取范圍。網絡數據的可爬取范圍應結合爬取客體、技術手段、行為目的三個方面進行考量。爬取客體上,對于公開數據、半公開數據、非公開數據的保護程度應有所不同。[41]網絡數據爬取應嚴格限定于對公開數據的訪問,具體包括由政府、學術界和商業機構出于促進知識共享和技術創新的目的而開放的數據。技術手段上,爬取技術的設計和應用應恪守非侵入性原則,尊重并遵循網站的“爬蟲協議”和用戶協議,避免任何形式的技術規避行為。行為目的上,網絡數據爬取的行為必須服務于正當目的,對于非商業性數據的爬取,應以增進公共利益為目標。因此,基于科學研究應用等大模型構建信息基礎設施時是否應適當豁免,應在司法裁判中予以充分考量。
其次,應在司法判例中審慎判斷網絡數據爬取構成競爭性使用的條件。判斷大模型訓練是否構成競爭性使用,需明確網絡平臺對其數據享有的權益。依據網絡平臺對數據的投入程度,可將平臺上的數據分為“平臺限定提供的數據”及“用戶生成的網頁數據”兩類,前者是平臺企業對其所收集的數據進行脫敏、過濾、格式調整、加密、篩選等適度加工之后,采用技術手段進行控制并僅向特定人提供的商業化數據;后者是用戶直接提交給平臺,或者用戶在使用平臺過程中生成,直接展示在網頁上的數據。[42]對于前者,可能構成企業數據財產,對其未經授權的獲取、披露和使用應當承擔相關責任。而后者應當重點判斷其“破壞性利用”的構成、損害顯著和實質性、實質性替代與否以及用戶權益。
最后,由政府協調設立公共訓練數據池、公共訓練數據場,承擔生成式人工智能大模型訓練數據語料庫的數據基礎設施建設責任。現有語料庫總體覆蓋面和規模依然不足,受制于數據孤島、數據污染問題,庫內數據的采集依舊面臨來源稀缺的困境。語料形式缺乏統一標準,不同的處理標準導致數據集語料類型及結構差異明顯,不利于集約化管理,知識產權和數據安全合規方面的負擔同樣延緩了語料庫合法化建設步伐。在政府的示范引導下各方協同建設共享數據池,以助力數據語料庫迭代優化是中國企業與行業發展的共同訴求。
協調版權規則確定線下數據使用合理性制度邊界。傳統著作權“事前授權、使用付費”的交易模式難以滿足人工智能時代海量學習的需求。“事前授權”容易導致數據交易流程的冗雜以及交易效率的低下,“使用付費”容易產生包括數據獲取的識別成本以及數據交易的談判成本在內的過高交易成本[43],這要求版權規則進行突破協調以適配人工智能時代高價值數據獲取、流通、使用的需要。
第一,構建訓練數據合理使用制度。在人工智能預訓練階段,可考慮認定利用版權作品進行訓練原則上構成合理使用。首先,就技術原理而言,大模型或是通過對特定類型作品的風格、要素、體裁等公有領域的“思想”進行學習,進而生成類似作品[44];或是對既有作品進行具備“非特定性”的非表達性使用,進而創造新的數據價值[45],其均非《中華人民共和國著作權法》應當規制的作品使用行為;其次,就社會效益而言,大模型運用高質量數據進行訓練具有顯著的公共利益價值,對發揮數據的公共價值、發展生產力、增進社會福祉、提升國際競爭力等有著顯著正向影響[46],將大模型訓練納入合理使用范疇符合《中華人民共和國著作權法》激勵創新的制度目的;最后,就市場影響而言,大模型的輸出結果不必然對原訓練作品的市場份額產生沖擊,因大模型具備通用能力和泛化能力,其應用場景不局限于原作品的市場定位。但是,合理使用制度的構建并不意味著對大模型訓練的版權侵權全面豁免,對基于科學研究目的的大模型應當允許免費合理使用版權數據進行訓練,而對于商業應用等大模型則應當針對具體個案全面權衡其原理、價值、市場影響等要素,綜合判斷其合法性。
第二,審慎認定訓練數據版權侵權及責任承擔方式。當前,多種場景爭議下的司法判例的落實或將成為厘清訓練數據合理使用邊界的關鍵。我國現有判例認為,若案涉被侵權作品享有較高知名度,可推定具備接觸可能性,且人工智能模型生成結果在多個關鍵特征上與被侵權作品具有高度相似性,即可認定為實質性相似而構成復制權和改編權侵權。可見,“實質性相似”將是明確大模型訓練數據使用合理性的邊界,法律應當保護的是大模型在已有作品基礎上的創新,而非對既有作品缺乏創造性的剽竊。對于大模型訓練數據侵權的救濟手段,應當秉持審慎立場,綜合考慮大模型的應用價值與對權利人的實際損害。一方面,應當盡量避免要求大模型開發者刪除涉嫌侵權的訓練數據,以避免導致大模型整體能力的不可控下降,從而給相關產業帶來過高負擔;另一方面,應當結合被侵權作品的知名度與市場地位、侵權方的應對措施、侵權行為的具體影響范圍、對產業發展的潛在影響等予以認定,而不應當過高地認定實際損害,以免為人工智能模型創新與應用施加難以負擔的法律成本。
第三,完善版權作品相關方利益分配機制。一方面,允許版權方行使人工智能訓練拒絕權將有助于維護版權方合法權益。另一方面,人工智能開發者也可主動采取措施令版權方參與利益分配。OpenAI開展版權屏障計劃,將介入并為使用其產品的企業提供版權侵權辯護,并承諾承擔客戶因應對相關知識產權訴訟而產生的法律費用。[47]在這一模式下,人工智能模型開發者作為大模型應用的獲益者承擔相應責任,有助于實現版權方和使用者等主體間的利益平衡,進而推動版權保護與技術發展的共贏。
構建開放機制滿足公共數據參與語料庫建設需求。構建層次化的公共數據開放機制有利于推動公共數據深度參與人工智能訓練數據語料庫建設,使公共數據的開發利用價值在模型訓練過程中得到充分挖掘。不同類型、價值的公共數據對應不同的開放程度,公共數據開放機制可分為完全開放、有限開放與授權運營三個層次。
第一,構建政府主導的公共數據完全開放機制。公共數據完全開放機制具有獲取方式的無償性、開放數據的原始化、獲取對象的不特定性等特征。具體而言,公共數據完全開放機制適用于不涉及國家秘密、商業秘密、個人隱私及敏感個人信息的原始數據,具體包括信用、交通、衛生、就業、教育等領域的原始數據開放。[48]公共數據完全開放機制應當由政府主導,建立公共數據開放目錄以確定開放范圍,通過一體化、集中化的國家數據開放平臺匯集各省、市政府職能部門的各類原始數據,以直接獲取或下載的方式免費向不特定的社會公眾開放,實現原始數據與語料庫之間的無障礙對接。
需要注意的是,原始數據雖然具有較高的開發利用價值,但也存在較大的不確定性和安全風險。[49]政府在履行公共數據開放義務的同時,還應當建立公共數據開放安全風險防控機制,采取技術、管理措施防范原始數據安全風險,具體包括開放前的個人數據去標識化處理、開放平臺的運營技術維護、開放過程中的動態安全監測以及開放后的安全事件應急預案等。
第二,構建特定對象的公共數據有限開放機制。公共數據完全開放機制雖然能夠為語料庫建設提供一定量免費的原始數據資源,但面向全體社會公眾的無門檻開放必然會限制語料庫吸納更加優質的公共數據資源。未來,通用大模型市場或將呈現寡頭競爭格局,面向垂直領域的行業大模型將成為大模型產業競爭的主要領域。[50]與“無數不用”的通用大模型訓練不同,行業大模型訓練需要更加高質量、專業化的公共數據供給。這些數據的數據量和敏感性不同于完全開放的公共數據,對數據利用主體自身的數據安全管理水平、技術能力有著較高的要求。[51]公共數據有限開放機制以主體的準入資格審核為前提,通過與行政機關簽署行政協議的方式獲取特定領域的公共數據資源。一方面,能夠滿足垂直領域的大模型企業對領域數據的特殊需求;另一方面,能夠防范優質公共數據的泄露、濫用、遭受攻擊等安全風險。
第三,構建面向市場的公共數據授權運營機制。區別于前兩種直接的公共數據開放機制,公共數據授權運營是一種間接開放機制,由行政機關授權特定運營主體對公共數據進行加工,從而形成數據產品與服務提供給市場和社會。[52]公共數據授權運營有利于激發市場運營主體活力,釋放公共數據的經濟價值,提升公共數據資源配置效率,實現數據要素市場的供需匹配。目前,公共數據授權運營實踐尚處于探索階段,主要存在行業主導、區域一體化以及場景牽引三種公共數據授權運營模式。[53]從促進人工智能大模型創新研發的角度來看,基于特定應用場景授權不同運營主體的場景牽引模式更有利于實現領域數據供需方之間的精準匹配,進一步推動金融、醫療、教育、自動駕駛等領域的垂類大模型訓練數據語料庫建設。
協同促進跨領域數據流通交易規則建立供給激勵。面向人工智能創新應用的新時代,我國數據交易市場也應轉型突破,適應人工智能產業獲取訓練數據的現實需求。就交易平臺而言,可針對人工智能訓練市場,將現有的通用數據交易所轉型為“AI數據交易合同”模式,為企業訓練人工智能提供定制化的訓練數據。就交易標準而言,相關市場主體和監管部門可共同規范訓練語料的標注標準,便于語料數據的交易流通。就合同內容而言,人工智能訓練方需要遵循誠實信用原則,明確告知數據提供方相關數據的用途并獲得授權,避免因超出授權范圍使用數據而面臨違約風險。
“數據二十條”明確提出,“完善和規范數據流通規則,構建促進使用和流通、場內場外相結合的交易制度體系,規范引導場外交易,培育壯大場內交易”。現階段,數據交易市場“內冷外熱”,引導場外數據交易進場交易,需建立健全場內數據交易規則,為跨領域數據流通交易掃清制度障礙。
一是數據確權規則。首先,探索建立數據資產登記確權制度。數據資產登記能夠推動跨領域的數據資源向數據資產的轉化,發揮數據資產登記的證明功能,消除跨領域企業入場門檻。其次,規范數據資產價值評估體系。數據資產價值受數據質量、時效、類型等多種因素影響,價值不確定性增加了評估難度,應細化評估指標,綜合運用風險評估法、成本效益分析法等多種價值評估方法,構建專業化、領域化的價值評估模型,確保跨領域數據資產價值評估的客觀性。最后,完善數據資產入表制度。2023年8月,財政部印發《企業數據資源相關會計處理暫行規定》,明確數據資產可以列入企業財務報表之中。目前,數據資產入表還處于探索實踐初期,可通過制定出臺數據資產入表的相關規則指引、指南,進一步引導企業完成數據資產入表工作。
二是數據定價規則。解決數據交易糾紛的關鍵在于確定合理的數據定價規則,但數據定價目前尚未形成統一的規則和標準。鑒于應用場景對數據市場價值的重大影響,可以考慮設置不同行業、不同場景的數據定價機制,盡可能降低由于交易雙方信息不對稱導致的價格歧視風險。[54]數據交易的具體價格可以結合數據資產價值評估結果進行確定,此外,例如《深圳市數據交易管理暫行辦法》第十九條第三款提出的數據質量、數據樣本一致性、數據計算貢獻、數據業務應用四個維度可以作為數據定價的考量因素。計價方式上,結合數據交易所實踐來看,可采取按次計費、按時長計費、固定價格或者面議價格等多種計價方式。
三是收益分配規則。“數據二十條”中提出,數據要素由市場評價貢獻、按貢獻決定報酬,并按照“誰投入、誰貢獻、誰受益”的原則,著重保護數據要素各參與方的投入產出收益。數據流通交易過程中主要涉及數據提供者、數據使用者、數據交易平臺三方主體,目前數據要素市場中的收益分配通常是數據交易平臺與數據交易雙方協商的結果,忽視了原始數據生產者對數據要素生產的貢獻。原始數據為數據要素的形成提供了原始材料,是數據要素形成的基礎,應當將原始數據生產者作為收益分配主體之一,通過智能合約等方案提升原始數據生產者參與數據要素分配的可行性。[55]
四是供給激勵規則。加強數據要素供給激勵是“數據二十條”提出的明確要求,數據確權是激勵數據流通交易的有效法律手段,除此之外,還應探索經濟、技術、管理等多樣化的數據要素供給激勵舉措。目前,已經有多家數據交易平臺開始針對不同的數據要素市場主體推出激勵方案。例如,深圳數據交易所針對企業建立的數據交易誠信合規激勵機制、湖南大數據交易所針對數據交易雙方和數據經濟商等主體推出的百萬交易激勵計劃、鄭州數據交易中心針對數據經紀人推出的千萬激勵計劃等。就跨領域數據交易流通而言,應結合不同領域的市場需求,探索有針對性的供給激勵規則。
(本文系國家社會科學基金重點項目“生成式人工智能的法律定位與分層治理研究”的階段性研究成果,項目編號:23AFX009,課題組成員對本文亦有貢獻)
注釋
[1][2][3]J. Wei, Y. Tay and R. Bommasani et al., "Emergent Abilities of Large Language Models," Transactions on Machine Learning Research, 2022, 8.
[4]姚佳:《人工智能的訓練數據制度——以“智能涌現”為觀察視角》,《貴州社會科學》,2024年第2期。
[5]J. Brown, "Comparing GPT–3 vs GPT–4: An AI Expert's In–Depth Guide," https://www.33rdsquare.com/comparing-gpt-3-vs-gpt-4-an-ai-experts-in-depth-guide/.
[6][10][19][22]阿里云智能集團、數字中國研究院(福建):《大模型訓練數據白皮書》,阿里研究院,2024年5月24日。
[7]《大模型潮即將耗盡全宇宙文本,高質量數據從哪里來?》,2023年7月17日,https://www.thepaper.cn/newsDetail_forward_23865563。
[8]羅云鵬:《大模型發展亟需高質量“教材”相伴》,《科技日報》,2024年1月15日,第6版。
[9]HIMSS, "Implementing AI and ML From the Ground Up Case Study," https://www.himss.org/resources/implementing-ai-and-ml-ground-case-study.
[11]S. Yin et al., "A Survey on Multimodal Large Language Models," IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024, 4.
[12]OpenAI, "CLIP: Connecting Text and Images," https://openai.com/index/clip/.
[13]楊維鎧等:《基于可視分析的訓練數據質量提升綜述》,《計算機輔助設計與圖形學學報》,2023年第11期。
[14]T. Sun, A. Gaut, S. Tang et al., "Mitigating Gender Bias in Natural Language Processing," Annual Meeting of the Association for Computational Linguistics, 2019.
[15]綠盟科技:《安全行業大模型SecLLM技術白皮書》,2023年9月1日。
[16]D. Huynh, J. Hardouin, "PoisonGPT: How We Hid a Lobotomized LLM on Hugging Face to Spread Fake News," https://colab.research.google.com/drive/16RPph6SobDLhisNzA5azcP-0uMGGq10R?usp=sharing&ref=blog.mithrilsecurity.io.
[17]L. Huang, W. Yu, W. Ma et al., "A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions," arXiv:2311.05232, 2023.
[18]微軟亞洲研究院:《價值觀羅盤:如何讓大模型與人類價值觀對齊?》,2024年4月11日。
[20]W3Techs實時統計信息:https://w3techs.com/technologies/overview/content_language,2024年6月18日。
[21]IDC, Global DataSphere 2023, IDC Published, 18 May 2023.
[23]胡凌:《論地方立法中公共數據開放的性質》,《地方立法研究》,2019年第03期第4輯。
[24]Verge, "ByteDance is Secretly Using OpenAI's Tech to Build a Competitor," Verge Tech, 16 December 2023.
[25]K. Lee, A. F. Cooper, J. Grimmelman etc., "AI and Law: the Next Generation–An Explainer Series," GenLaw, 6 July 2023.
[26]R. Morrison, "The Majority of AI Training Data Will Be Synthetic by Next Year, Says Gartner," https://techmonitor.ai/technology/ai-and-automation/ai-synthetic-data-edge-computing-gartner, 2 August 2023.
[27]支振鋒:《生成式人工智能大模型的信息內容治理》,《政法論壇》,2023年第4期。
[28]參見北京人工智能高質量數據集服務平臺,http://dataset.baiia.org.cn/,最后訪問于2024年6月18日。
[29]復旦大學數字與移動治理實驗室:《中國地方公共數據開放利用報告——省域(2023年度)》,http://ifopendata.fudan.edu.cn/report。
[30]劉金瑞:《生成式人工智能大模型的新型風險與規制框架》,《行政法學研究》,2024年第2期。
[31]中國互聯網信息中心:《第53次中國互聯網絡發展狀況統計報告》,2024年3月29日。
[32]楊華權、曲三強:《論爬蟲協議的法律性質》,《法律適用》,2013年第4期。
[33]億歐智庫:《2023中國信息與數據孤島分析報告》,2023年11月21日。
[34]最高人民法院:《知識產權侵權司法大數據專題報告》,2024年6月18日,https://www.court.gov.cn/upload/file/2019/11/22/11/20/20191122112018_45474.pdf。
[35]全球唱片協會:《2018全球音樂報告》,2024年6月18日,https://www.ifpi.org/ifpi-global-music-report-2018/。
[36][43]張平:《人工智能生成內容著作權合法性的制度難題及其解決路徑》,《法律科學(西北政法大學學報)》,2024年第3期。
[37]K. Armstrong, "Tesla Surpasses 150 Million Miles Driven with FSD Beta," https://www.notateslaapp.com/news/1360/tesla-surpasses-150-million-miles-driven-with-fsd-beta.
[38]參見浙江省湖州市中級人民法院(2021)浙05刑終87號判決書。
[39]參見國家互聯網信息辦公室:《網絡數據安全管理條例(征求意見稿)》第四章,https://www.cac.gov.cn/2021-11/14/c_1638501991577898.htm。
[40]許中緣、鄭煌杰:《數據要素賦能新質生產力:內在機理、現實障礙與法治進路》,《上海經濟研究》,2024年第5期。
[41]張軍強:《人工智能大模型數據爬取行為的正當性認定》,《中國知識產權》,2024年。
[42]周樨平:《數據爬取的不正當競爭認定規則研究》,《南大法學》,2023年第2期。
[44]徐小奔、楊依楠:《論人工智能深度學習中著作權的合理使用》,《交大法學》,2019年第3期。
[45]劉曉春:《生成式人工智能數據訓練中的“非作品性使用”及其合法性證成》,《法學論壇》,2024年第3期。
[46]丁曉東:《論人工智能促進型的數據制度》,《中國法律評論》,2023年第6期。
[47]OpenAI, "New Models and Developer Products Announced at DevDay," https://openai.com/index/new-models-and-developer-products-announced-at-devday/.
[48]《促進大數據發展行動綱要》中提出,“率先在信用、交通、醫療、衛生、就業、社保、地理、文化、教育、科技、資源、農業、環境、安監、金融、質量、統計、氣象、海洋、企業登記監管等重要領域實現公共數據資源合理適度向社會開放”。
[49]宋爍:《構建以授權運營為主渠道的公共數據開放利用機制》,《法律科學(西北政法大學學報)》,2023年第1期。
[50]黃哲:《大模型價格戰背后的邏輯與真相》,《中國計算機報》,2024年6月10日,第10版。
[51]常江:《公共數據開放立法原則反思和開放路徑構建》,《華東理工大學學報(社會科學版)》,2022年第5期。
[52]馬顏昕:《公共數據授權運營的類型構建與制度展開》,《中外法學》,2023年第2期。
[53]行業主導模式,即由特定行業主管部門授權運營主體承擔本領域公共數據運營;區域一體化模式,即由地區數據管理機構整體授權運營主體開展區域內各類公共數據的市場運營;場景牽引模式,即圍繞特定場景的應用需求,在公共數據資源統籌管理基礎上,基于特定應用場景將數據分類授權給不同的運營主體。參見孫清白:《公共數據授權運營營利性與公益性的沖突及其制度協調》,《行政法學研究》,2024第3期。
[54]趙精武、周瑞玨:《數據要素市場如何進行數據定價》,《學習時報》,2023年2月17日,第A3版。
[55]王延川、呂君枝:《原始數據提供者參與數據要素收益分配的理論邏輯與實踐路徑——以共同富裕為視角的考察》,《陜西師范大學學報(哲學社會科學版)》,2023年第3期。
責 編∕韓 拓 美 編∕周群英
Accelerate the Construction of Chinese Training Data Corpus of AI Large Models
Zhang Linghan
Abstract: The three elements of the development of AI large model industry are algorithm, computing power and data, among which the quality of training data corpus directly determines the ability of AI large models. The total amount of Chinese data corpus is seriously insufficient compared with English data corpus, and there are obstacles such as high risk of illegal data collection, insufficient open utilization of public data, uncoordinated copyright system of offline structured data, and no determined data ownership of commercial procurement and cooperation data, which have become institutional bottlenecks restricting the development of artificial intelligence. The development of China's AI large model industry can clarify the conditions for the identification of the legitimacy of network data sources through judicial precedents, coordinate copyright rules to determine the institutional boundaries of the rationality of offline data use, build an open mechanism to meet the needs of public data participation in corpus construction, coordinately promote the establishment of supply incentives for cross-domain data circulation and transaction rules, and break institutional barriers to meet the needs of industrial development.
Keywords: artificial intelligence large model, training data, corpus construction, copyright system, public data