【作者】李铭轩
【内容提要】
论大模型训练数据的合理使用
李铭轩
中国人民大学交叉科学研究院、
国家治理大数据和人工智能创新平台讲师
摘要:大模型训练数据的主要来源是网络上的公开数据,开发者一般通过爬取公开网页和收集开源数据来大规模获取训练数据。随着数据财产权益保护的强化,获取海量训练数据的主要方式面临着合法性挑战。数据财产权益人众多、数据使用行为难追溯导致交易成本升高,大模型开发者无法通过市场机制获得数据财产权益人的许可来确保训练数据的合法性。在市场失灵的情形下,允许开发者合理使用数据进行大模型训练,可以增进社会福利,且一般不会损害数据财产权益人的市场利益。采取集体管理或法定许可等替代方案给数据财产权益人带来的收益非常有限,却会产生更高的制度成本,并给我国大模型的发展造成不利影响。因此,我国应当建立大模型训练数据的合理使用制度,为技术发展提供合法性预期。在规则设计上,大模型训练数据合理使用的对象应限于公开数据;目的应限于预训练;方式应包括训练涉及的数据处理行为;应允许数据财产权益人以技术措施选择退出合理使用。
关键词:大模型;训练数据;数据财产权益;合理使用;市场失灵
引 言
近年来,ChatGPT、DeepSeek等基于大语言模型(以下简称“大模型”)的人工智能应用快速发展,深刻地改变着人们的生活。大模型是“一种由包含数百亿个及以上参数的深度神经网络构建的语言模型”。与以往的人工智能模型不同,大模型展现出极为强大的语言能力,并具备处理不同任务的通用能力,为实现通用人工智能(即强人工智能)创造可能。因此,大模型已成为人工智能领域最重要的技术之一。
数据是大模型发展的关键要素。大模型对数据规模和多样性都有更高的需求。大模型的性能存在着“规模定律”(Scaling Law),随着训练数据量的增长,模型的性能也会提升。例如,美国开放人工智能(OpenAI)公司的GPT系列模型,其训练数据量从GPT-1的5GB增至GPT-2的40GB,再迅速扩张到GPT-3的45TB。此外,大模型训练所需的数据类型也日趋多样,包括网页、书籍、百科全书等不同类型的数据。训练数据的多样化不仅有利于增强大模型的通用能力,也有助于保障大模型的公平性与包容性。因此,大规模、多样化的训练数据已成为大模型发展的重要基础。
然而,大模型训练数据的获取和使用面临着法律上的限制。数据不仅是人工智能的要素,也是法律权益的载体。数据之上承载着著作权、个人信息权益、数据财产权益等多种权益。大模型训练数据的获取和使用行为会落入这些权益的控制范围,这意味着大模型开发者未经权益人许可不得擅自获取和使用数据。这会给训练数据的获取和使用带来较大的限制,进而可能影响大模型技术的发展。因此,许多观点提出,针对大模型训练的情形,应当加强对著作权、个人信息权益的限制,消除法律上的可能障碍。
不过,现有研究较多关注著作权和个人信息权益保护对大模型训练的影响,却鲜有讨论数据财产权益保护带来的问题。但是,数据财产权益保护对训练数据获取和使用的影响不容忽视。即使大模型开发者可以在著作权或者个人信息权益领域享有侵权豁免,但如果数据持有者能够主张数据财产权益,仍有可能限制大模型开发者对数据的获取和使用。因此,从体系的视角来看,如果要消除大模型训练数据获取和使用的法律障碍,亟须全面地考察数据“权利束”中各种权益的潜在影响,并在制度设计上保持协调与一致。而且,在实践中,涉及数据财产权益的相关纠纷也已发生。2025年6月4日,Reddit起诉Anthropic,指控其未经许可利用爬虫获取其平台内容数据并使用在大模型训练中,构成违约、不当得利和侵权(包括不正当竞争)。在该案中,作为原告的Reddit本身并非著作权人或个人信息主体,因此其争议焦点并非大模型开发者是否侵害著作权或个人信息权益,而是其是否侵害数据财产权益。
因此,本文将讨论数据财产权益保护在大模型训练场景下引发的问题,并提出合理的解决方案。尽管我国在数据财产权益的制度设计上尚缺乏共识,但这并不影响本文讨论的前提:大模型训练数据的获取和使用可能会落入数据财产权益的控制范围,而随着数据财产权益保护的强化,训练数据的获取和使用将受到更多的限制。本文认为,面对数据财产权益保护给大模型训练造成的障碍,引入大模型训练数据的合理使用制度,是一种可行的方案。鉴于此,本文拟围绕大模型训练数据的合理使用这一主题,讨论引入这一制度的前提背景和理论基础,并提出规则建构的具体方案。
一、大模型训练数据合理使用的引入背景
在这一部分,本文旨在论证数据财产权益保护可能会导致大模型训练数据市场失灵。这是引入大模型训练数据合理使用的重要背景。本文将首先考察大模型训练数据的主要来源,然后讨论数据财产权益保护对训练数据获取和使用的影响,最后分析由此可能引发的训练数据市场失灵。
(一)大模型训练数据的主要来源
大模型本质上是语言模型,其核心目标是对自然语言的概率分布进行建模。以 GPT 模型为例,其任务是基于已有的词语序列预测下一个词,即构建条件概率分布。模型训练便是从数据中建模的过程,主要是指模型通过接受输入训练数据,对模型参数进行迭代优化,从而最小化模型预测输出与真实数据标签之间的误差。因此,GPT等大模型的训练数据实质上是词序列(特征)与下一个词(标签)的配对,而网络上海量的公开文本数据能为训练数据的构建提供丰富的资源。
从来源上看,大模型训练数据主要来自网络上的公开数据。大模型开发者通过两种方式大规模地获取网络公开数据。第一,爬取公开网页。大模型开发者可以利用网络爬虫等技术大量获取公开网页的数据,并用来构建训练数据集。例如,开放人工智能公司曾通过爬取Reddit上获得至少3个赞的外链网页,构建了一个高质量网页文本数据集WebText,并使用在GPT系列模型的训练中。目前,许多大模型开发者都部署了专门的网络爬虫,如开放人工智能公司的GPTBot等,用来大规模地收集公开网页的数据,为构建训练数据集提供丰富的原材料。第二,收集开源数据。开源数据是指基于开源许可证(Open Source License)发布的数据资源,这些数据的发布者一般允许他人自由且免费使用其收集的数据。大模型开发者也经常收集大量的开源数据,并以此为基础构建训练数据集。例如,大模型开发者通常会使用Common Crawl或其衍生的开源数据集。Common Crawl是一个非营利组织,其通过网络爬虫定期抓取整个互联网的网页,积累了PB 级别规模的数据,存储在数据库中供公开访问和下载。由于数据量过于庞大,大模型开发者在构建训练数据集时,一般会从Common Crawl中提取合适的子集,或使用其他基于Common Crawl构建的开源数据集,如Colossal Clean Crawled Corpus(C4)等。
到目前为止,绝大多数开发者之所以能顺利地构建适于大模型训练的数据集,得益于上述两种数据获取方式事实上“自由且免费”的特征。首先,大模型开发者可以通过这两种方式自由地获取大量的数据,没有为获取许可付出很高的搜索与谈判成本。其次,大模型开发者也没有为这些数据支付对价,节省了大量的费用。受益于此,许多开发者才能够获取和使用数量足够且种类广泛的数据展开大模型训练,推动这一领域持续创新和发展。
(二)数据财产权益保护及其影响
本文所讨论的数据财产权益,是指数据持有者对数据所享有的对世性财产权益。这一概念不包括著作权和个人信息权益,也不包含合同约定的有关数据的权利。在我国现行法下,数据财产权益主要是指数据持有者受侵权法和反不正当竞争法所保护的对世性财产利益。除对非公开数据的商业秘密保护外,我国法院也主要依据反不正当竞争法为公开数据提供保护。在实践中,数据持有者经常以《反不正当竞争法》第2条(即一般条款)主张他人获取和使用数据的行为构成不正当竞争。在这类案件中,许多法院都认定他人获取和使用数据的行为构成不正当竞争,侵害了数据持有者的合法权益。通过一般条款的适用,我国法院事实上创设了一种针对公开数据的“竞争性财产权益”,使数据持有者能够阻止具有竞争关系的其他主体对其数据的不正当获取和使用行为。2025年6月,新修改的《反不正当竞争法》在第13条新增一款,确认了司法对数据财产权益的保护实践,将侵害数据财产权益的情形具体化为不正当竞争行为的法定类型。
我国还一直存在着强化数据财产权益保护的呼声。许多观点认为,现有制度对数据财产利益的保护尚存不足,应进一步采权利保护模式,即通过立法事先确认数据持有者对数据享有财产权。当然,目前这些方案仍然停留于理论探讨阶段,尚未转化为具体法律制度。但从近年来的政策趋势观察,我国正在积极探索数据财产权制度的构建,并可能在未来付诸实践。2022年12月,中共中央、国务院发布《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称《数据二十条》),明确提出要“建立保障权益、合规使用的数据产权制度”,在国家政策层面释放了支持数据确权的信号,并为未来立法提供了思路和框架。上述迹象表明,未来我国有可能逐步建立数据财产权制度,进一步强化数据财产权益的保护。
随着数据财产权益保护的强化,当前大模型开发者获取海量数据的两种主要方式将面临严峻的合法性挑战。第一,爬取公开网页的合法性空间不断收紧。爬取公开网页的行为很可能会落入数据财产权益的控制范围,并随着数据财产权益保护的强化而受到进一步限制。在现有的利益保护模式下,数据爬取行为构成不正当竞争行为的认定标准非常宽松。特别是在行为不正当性的认定上,若数据爬取者在爬取数据时违反机器人协议或服务协议,大概率会被认定具有不正当性。而在实践中,网站通过机器人协议或服务协议限制大模型开发者爬取数据的现象愈发普遍。有研究调查了三个大模型训练最常用的开源数据集C4、RefinedWeb和Dolma,发现在大模型兴起的一年里,许多网站在通过机器人协议和服务协议不断加强对数据爬取的限制。例如,在最关键的网站中,2024年4月时大约有20%—33%的内容受到机器人协议的限制,而一年前这一比例不到3%;而网站服务协议中有关爬取的限制也增加了26—53%。较低的认定门槛加上不断扩张的协议限制,使得大模型开发者未经许可爬取公开网页的行为越来越容易落入不正当竞争的范畴。而且,如果未来对数据采取权利保护模式,那么即便网站没有通过机器人协议或服务协议明确限制大模型开发者的爬取行为,大模型开发者在爬取网页数据之前也需要获得网站的许可,否则会构成对数据财产权的侵害。这会导致大模型开发者越来越难以通过爬取公开网页来获得海量的训练数据。
第二,使用开源数据的合法性存在不确定性。通过收集开源数据来构建大规模训练数据集也受到极大的限制。首先,许多开源数据集的构建本身就依赖于爬取公开网页。由于爬取公开网页的合法性空间收紧,构建开源数据集的可用资源也进一步收缩。如果在开源数据集的构建过程中存在侵害数据财产权益的行为,那么其本身的合法性就存在问题。此时,大模型开发者使用该数据集就可能面临法律风险。其次,即使开源数据集本身不存在合法性问题,也并不意味着大模型开发者将其用于大模型训练是合法的。其一,大模型开发者在使用时可能会因为使用范围超出发布者许可范围而违法。例如,开源数据集仅允许用于科研目的,而大模型开发者将其用于商业性模型的训练。其二,即便没有超出开源数据集的许可范围,仍不能确保大模型开发者使用该数据集训练大模型就是合法的。这是因为,开源数据集的发布者所规定的许可范围有时也可能会超出其自身所享有的权限。例如,有的网站可能会允许Common Crawl等非营利组织爬取其网页数据,但对大模型开发者专门收集数据的网络爬虫进行了限制。然而,Common Crawl在爬取这些网页数据后,有可能会被其他开发者用来训练大模型,而CommonCrawl的使用条款中并未明确限制开发者的这一行为。如果该网站对其数据享有对世性的数据财产权益,开发者使用其数据训练大模型的行为虽未违反Common Crawl的使用条款,却有可能构成对数据财产权益的侵害。因此,随着数据财产权益保护的强化,大模型开发者使用开源数据构建训练数据集也面临着更多的限制与不确定性。
(三)训练数据市场失灵及其缘由
在数据财产权益保护日益强化的背景下,收集海量训练数据的主要方式面临着合法性障碍,导致使用数据训练大模型的自由受限。在很多时候,大模型开发者必须通过市场机制获得数据财产权益人的许可,才能确保训练数据的合法性。然而,基于大模型训练的现有实践,通过市场机制来获得许可存在较大的难度,主要原因在于高昂的交易成本。交易成本通常包括搜索和信息成本、谈判和决策成本以及监管和执法成本。在大模型训练数据市场中,这些成本因为种种原因极其高昂,阻碍了交易的发生。
第一,大模型训练数据涉及的数据财产权益人众多,这导致开发者所要付出的搜索和信息成本、谈判和决策成本变得极高。过去典型的数据利用场景往往涉及专门的目的、功能或领域,其所需的数据经常集中在有限的权益人或中介手中。但是在大模型训练的场景下,训练数据可能涉及的财产权益人规模激增。特别是占比最高的网页数据,其涉及的网站成千上万。例如,在大模型训练常用的C4数据集中,就包含大约1500万个网站,词元(token)数量高达1560亿。如今,许多大模型训练使用的网页数据规模早已大大超出C4数据集的规模,达到了万亿词元的级别,其涉及的网站数量很可能也早已超过C4数据集中的千万级别。理论上,每一个网站都有可能是一个独立的数据财产权益人,那么大模型训练涉及的权益主体数量将可能是千万乃至上亿级。对大模型开发者来说,要去寻找如此众多且分散的权利人,将付出极大的搜索和信息成本;还要与这些网站进行一一协商或付费,将会付出极高的谈判和决策成本。在这种情形下,如果继续强调对数据财产权益的保护,会给大模型开发者带来沉重的负担,其几乎不可能通过市场机制获取和使用这些数据。
第二,大模型训练数据的使用行为在事实上难以追溯,这导致监管和执法成本也急剧增加。在过去典型的数据纠纷中,许多侵害数据财产权益的行为是对他人数据的提供、展示等具有公开性的行为,很容易被追溯。但是在大模型训练的场景下,数据使用行为变得更为隐蔽和难以证明。首先,大模型的训练,包括其中涉及的数据使用,一般不在公开的环境下进行,因此外界无法直接观察和监测大模型训练中的数据使用行为。其次,对商业性的大模型开发者而言,有关训练方法的信息至关重要,包括训练数据的来源、内容和处理方法等,开发者会对这些信息采取保密措施以维持竞争上的优势。再者,训练得到的结果是模型的参数权重,并不会保存任何训练数据,虽然开发者最终需要对外提供大模型服务,但是外界很难从模型本身或其生成的结果来反推其使用的训练数据。由于追溯大模型训练数据使用行为的难度很高,要在这种情况下严格地执行数据财产权益保护制度,就必须付出大量监管和执法成本。
可见,高昂的交易成本使得大模型开发者无法通过市场机制取得数据财产权益人的许可。在现实中,伴随这一现象发生的是大模型的“非法兴起”。由于无法通过市场机制合法获得数据权益人的许可,许多大模型的训练事实上未经许可就获取和使用了可能受他人权益保护的数据,存在着极大的违法风险。正因如此,大模型开发者正面临着许多由数据持有者提起的诉讼。这种“非法兴起”在一定程度上表明,在大模型训练的场景下,市场难以发挥作用来促成人工智能公司与数据持有者之间的交易。在这种情形下,如果严格地执行数据财产权益保护制度,不仅会产生极高的监管和执法成本,还会导致大模型开发者无法获取足够的数据进行训练。换言之,过强的数据财产权益保护可能会导致市场失灵的发生,即大模型开发者无法通过市场机制与数据权益人达成对社会而言有益的交易,产生了无效率的结果。
二、大模型训练数据合理使用的制度证成
大模型训练数据市场可能发生的失灵现象为合理使用制度的引入提供了必要的前提背景。合理使用被视为解决市场失灵的主要手段之一。然而,市场失灵只是引入合理使用的必要而非充分条件,要证成大模型训练数据合理使用制度,仍需结合其他证成条件进行论证。此外,合理使用也并非解决市场失灵的唯一手段,集体管理、法定许可等制度也是解决市场失灵的可能方案。要证成大模型训练数据合理使用制度,需要比较这些替代方案,证明合理使用是更优的选择。因此,在这一部分,本文将首先回顾证成合理使用制度的理论,并分析引入大模型训练数据合理使用制度的正当性,然后讨论解决市场失灵的替代方案,指出其无法完全取代合理使用。
(一)制度证成的理论
合理使用起源于著作权法,是指在特定条件下著作权人以外的主体可以不经著作权人许可无偿使用作品的制度。在著作权法领域,合理使用的理论得到了最为充分的讨论。著作权法学者早已围绕市场失灵的概念为合理使用制度构建了极具解释力的理论。在其开创性的论文中,温迪·J.戈登(Wendy J. Gordon)教授认为,著作权合理使用应被解释为应对市场失灵的一种制度方案。著作权法赋予作者对作品的排他性权利,以激励作者的文学艺术创作行为,在此之后,将作品转移给效用最大的使用者的任务主要由市场来完成。然而,由于交易成本等原因,市场并不总能促成对社会而言有益的转让行为,于是出现了低效率或无效率的市场失灵现象。在发生市场失灵的情况下,需要通过市场之外的途径来解决这一问题。合理使用正是通过允许潜在的使用者自由无偿使用作品,使更多的人能够享受作品带来的效用,从而解决了市场失灵问题,提升了社会整体效率。
不过,仅存在市场失灵并不能完全证明合理使用制度的正当性。合理使用是最为宽泛的权利限制,不仅赋予了使用者从事特定使用行为的自由,还免除了其支付对价费用的义务。因此,合理使用的证成需要适用更加严格的条件。戈登教授也意识到这一点,并尝试构建证成合理使用制度的完整理论。他指出,除了市场失灵的存在之外,某一情形要构成合理使用还需满足两项条件:第一,允许使用者使用作品能够增进社会福利。第二,对著作权人的激励不会因允许使用者继续使用作品而受到实质性损害。
著作权合理使用的市场失灵理论及其分析框架可以扩展到数据财产权益领域,用于证成数据财产权益的合理使用制度。这主要源于数据财产权益与著作权在原理上的相似性。与著作权类似,数据财产权益不仅是对数据持有者投入的合理回报,也是对其数据生产和供给行为的有效激励。在确立数据财产权益之后,市场会在大多数时候发挥作用,使数据流转到最能实现其价值的使用者手中。但当市场不能有效地实现这一目标时,便有了合理使用等法律干预手段介入的可能。类比著作权合理使用的证成条件,要证成某一情形构成数据财产权益的合理使用,需满足三项条件:第一,存在市场失灵,即使用者无法通过市场机制支付适当的费用获得使用数据的许可;第二,允许使用者使用数据能够增进社会福利;第三,对数据财产权益人的激励不会因允许使用者继续使用数据而受到实质性损害。
(二)合理使用的证立
在第一部分,本文已经证明了大模型训练数据市场可能发生失灵现象。接下来,要证明大模型训练数据合理使用的正当性,仍需继续证立后两个条件,即允许合理使用能够增进社会福利且不会对数据财产权益人的激励造成实质性损害。
1.合理使用增进社会福利
评估合理使用是否增进社会福利,最直接的证据来自当下的现实。实际上,大模型“非法兴起”的现实及其带来的社会效益,已经在很大程度上证明了合理使用可以极大地增进社会福利。在大模型“非法兴起”的情形下,开发者获取和使用数据进行大模型训练的状态与合理使用下的状态完全相同——大模型开发者没有获取数据权益人的许可,也没有向其支付费用。然而,在这种情形下,大模型技术迅猛发展,并产生巨大的社会价值。目前,大模型主要被应用于生成式人工智能,极大地推动了文学艺术等领域的发展。大模型提高了生成式人工智能的内容生成能力,为文学艺术创作提供新的工具。一方面,这一工具降低了创作的门槛,使更多普通人有机会参与文学艺术创作;另一方面,它也为专业艺术家提供新的契机,拓展了文学艺术创作的模式和空间。除了文学艺术领域的价值之外,大模型展现出的通用性特征使其具备在其他领域产生价值的潜力。通用大模型能够在不同的领域和任务中替代专用模型,降低开发的难度和成本,使更多人能够利用其强大的能力,开发出解决各种实际问题的人工智能应用。这种广泛的应用前景预示着大模型的发展将极大地提升个体的效率以及社会整体的福利。综上,引入大模型训练数据合理使用制度,可以在不增加开发者任何负担的情况下,将当前大模型“非法兴起”的状态合法化,从而保证大模型技术的快速发展和社会福利的持续增长。
2.合理使用不会造成损害
与著作权合理使用的证成相比,数据合理使用在后一个条件的证成上面临更大的挑战。在著作权法意义上,大模型开发者对作品数据的使用通常构成非作品性使用或非表达性使用,这意味着,其使用行为基本上不会对著作权人享有的市场利益造成实质性损害。然而,从数据财产权益的角度出发,大模型开发者对数据的使用,确实有可能会损害数据财产权益人的市场利益,进而对数据财产权益人的激励造成影响。第一种情形涉及对数据服务或产品市场利益的损害。如果大模型开发者所提供的数据服务或产品可以实质性替代数据财产权益人所提供的服务或产品,那么很可能会给数据财产权益人在现有数据服务或产品市场中的利益造成损害。例如,数据财产权益人付出实质性投入积累了较大规模的法律数据,并基于这些数据向公众提供公开的法律信息内容服务;而开发者未经许可获取上述公开数据来训练大模型,并基于大模型向公众提供相同或相似的法律信息内容服务。如果这类情形也被纳入大模型训练数据合理使用的范围,很可能导致数据财产权益人在现有数据服务或产品市场中的利益受到较大的损害。第二种情形涉及对数据许可市场利益的损害。如果在大模型开发者与数据财产权益人之间已经形成了大模型训练数据的许可市场,或存在建立相关数据许可市场的可能性,那么允许开发者合理使用数据会给数据财产权益人在现有或潜在数据许可市场中的利益造成损害。例如,像Reddit等网站的数据虽然是公开的,但其已着手建立公开数据许可的商业模式,要求大模型开发者在使用数据前须获得许可并支付相应费用。在此背景下,若法律允许大模型开发者无偿获取并使用上述平台的数据,势必会对正在形成中的数据许可市场造成冲击,损害数据财产权益人可能获得的利益。
尽管如此,本文认为,上述情形并不足以完全否定大模型训练数据合理使用的正当性。第一,在大多数情形下,允许开发者合理使用数据训练大模型,不会损害数据财产权益人的市场利益。首先,在大多数情形下,大模型开发者所提供的服务或产品并没有与数据财产权益人所提供的服务或产品存在直接竞争关系,不会构成实质性替代。大模型开发者使用数据训练大模型,主要是为了让大模型学习数据中的知识以提升大模型的语言能力和通用能力,而非为了提供与数据财产权益人相同或相似的服务与产品。只要基于大模型向公众提供的服务或产品与数据权益人提供的服务或产品之间存在着较大差异,引入合理使用一般不会对数据财产权益人的既有市场利益造成损害。实证研究也表明,ChatGPT等基于大模型的产品的主要实际用途与其训练数据主要来源所处的市场领域存在较大的区别。例如,ChatGPT中超过30%的对话被用于创造性写作,但事实上ChatGPT训练数据中创造性写作的数据占比并不高;而新闻类数据在ChatGPT训练数据中的占比相对较高,但只有不到1%的ChatGPT使用与新闻相关。第二,虽然在大模型开发者和数据财产权益人之间确实存在一些数据许可交易,但是相较大模型使用的数据规模,这些交易所涉及的数据规模只占很小的部分,主要发生在少数占据优势地位的大模型开发者与个别平台型数据财产权益人之间。换言之,这些交易很可能只是个案,并不能证明大模型训练数据市场的失灵现象是可以治愈的。事实上,在多数情形下,大模型训练数据市场过高的交易成本使得许多交易根本难以发生,数据财产权益人也很难主张可得利益的损失。因此,允许大模型开发者合理使用数据进行大模型训练,在多数情形下也不会损害数据财产权益人在数据许可市场中的利益。
第二,虽然可能存在少数损害数据财产权益人利益的情形,但是通过准确地界定合理使用的适用范围,可以将这些少数情形排除在合理使用之外,从而保障数据财产权益人的利益不会遭受损害。具体而言,可以通过明确合理使用的对象、目的与方式,将可能损害数据财产权益人利益的情形排除在合理使用范围之外;亦可允许数据财产权益人在满足特定条件下选择退出合理使用,从而使其能在交易成本较低的情况下,与大模型开发者达成许可协议,为形成有效的训练数据许可市场留下可能性。
综上,合理使用可能损害数据财产权益人的情形只是少数例外的情形。只要适当地限定合理使用的范围,在大多数情形下,引入大模型训练数据合理使用并不会对数据财产权益人的市场利益造成损害。
(三)替代方案的比较
有观点认为,我国可以借鉴著作权领域的经验,通过引入数据财产权益的集体管理或法定许可来降低交易成本,从而解决市场失灵问题。集体管理是指权益人通过集体管理组织对权益对象的使用予以许可、收取相应报酬的制度。法定许可则是指根据法律的规定可以不经权益人许可而以特定方式使用权益对象,但应当向其支付报酬的制度。这两者在著作权领域均有着成熟的经验,通过集中行使权益或直接规定许可费的方式,解决了一对一授权情形下可能存在的交易成本过高问题。在此背景下,有观点主张,可将集体管理或法定许可的方案推广至大模型训练场景,以解决大模型训练涉及大量作品数据使用的问题。同理,当大模型训练数据涉及大量数据财产权益时,也可以采取类似的集体管理或法定许可制度。
无论是集体管理还是法定许可的方案,其对比合理使用的共同特点是仍然要求大模型开发者向数据财产权益人支付费用。其支持者可能会认为,相比合理使用,这些方案的优势在于兼顾了数据财产权益人的利益:通过给予权益人经济补偿,可以更好地实现利益平衡。然而,本文认为,与合理使用相比,集体管理或法定许可的优势并不明显,而其可能带来的制度成本和代价却不容忽视。
第一,采取集体管理或法定许可方案给数据财产权益人带来的收益十分有限。首先,由于大模型训练数据所涉及的权益人规模非常庞大,即使开发者向权益人整体支付一笔不菲的费用,大多数权益人能够获得的收益也极其微薄。假设某个大模型的训练数据可能涉及1000万个网站,即使开发者愿意支付1亿元的许可费,分摊到每个网站的平均收益也只有10元。而且,考虑到数据上还承载着著作权等其他权益,数据财产权益人可能还需要将这些收益进一步分配给其他权益人,其实际上所能获得的收益甚至更少。其次,大模型训练对数据的使用频率也更为有限。著作权集体管理或法定许可所应对的典型情形很多都是对作品的持续、高频利用,这种持续、高频利用使著作权人能够持续累积并最终获得较为可观的收益。然而,大模型训练数据却并不具备这一特征。大模型训练的成本非常高昂,绝大多数大模型开发者不会频繁地使用数据进行训练,这可能会导致权益人无法通过累积使用次数来获得足够高的收益。
第二,采取集体管理或法定许可方案会付出更高的制度成本。由于这些方案都涉及集体管理组织的建立以及许可费的确定、收取和分配等活动,其制度的建立和运行相比合理使用都需要付出更多的成本。而且,相比著作权的集体管理或法定许可,大模型训练数据的集体管理或法定许可可能会面临更高的制度成本。以集体管理的建立和运行为例。首先,相比著作权集体管理,建立数据集体管理组织需要付出更高的成本。在著作权领域,已经存在着成熟的集体管理组织,并且这些组织已经获得了许多作品的授权,如果要将著作权集体管理扩展到大模型训练的场景,有相对坚实的基础。但在数据财产权益领域,并不存在类似的基础,如果要建立集体管理组织并获得足够规模的授权,需要投入更多的成本。其次,大模型训练的情形与著作权集体管理所应对的典型情形存在较大差异。一方面,大模型训练所涉及的数据类型更加多样。传统的著作权集体管理组织往往专注于单一类型作品的著作权管理,但大模型训练却会涉及多种类型数据。数据类型的多样化给集体管理带来了更高的运行成本,著作权集体管理组织管理单一类型作品的经验可能很难适用于大模型多样化训练数据的管理。另一方面,数据集体管理所需管理的对象规模更加庞大。在大模型训练的场景下,涉及的数据和财产权益人规模可能远超传统著作权集体管理组织所管理的规模。我国规模最大的著作权集体管理组织是中国音乐著作权协会,截止至2024年底,其管理的会员规模为14064人,音乐作品规模约为2300万首。如前所述,单个大模型训练数据所涉及的数据财产权益人规模在千万级别以上,网页数量更是高达亿级以上,这远远超过传统著作权集体管理所管理的规模。由于管理对象规模更为庞大,数据集体管理制度的运行成本也将显著增加。
第三,采取集体管理或法定许可方案会给我国大模型的发展造成不利影响。首先,采取集体管理或法定许可方案会巩固大企业的竞争优势,给初创企业制造极高的进入壁垒。大规模数据的使用会产生极高的许可费用。从目前实践中达成的训练数据交易案例看,许多大模型开发者与单个平台型数据财产权益人之间的许可费都已经高达每年千万美元,如果要向所有的数据财产权益人付费,数额很可能远超每年千万美元这一级别。如此庞大的成本很少有企业能负担得起,这将大大地减少大模型领域的竞争,给该领域的创新带来不利影响。其次,采取集体管理或法定许可方案可能会影响我国在该领域的国际竞争力。有学者指出,如果有的国家选择不要求大模型开发者付费,那么开发者和开发活动可能会向这些监管较为宽松的国家转移,发生“创新套利”现象。在大模型技术仍不断发展的阶段,如果我国率先要求开发者承担这一费用负担,可能会影响其在我国研发技术和落地应用的积极性,削弱我国在人工智能领域的国际竞争力。
三、大模型训练数据合理使用的规则构建
在证成大模型训练数据合理使用的正当性后,有必要进一步探讨其具体规则的构建。考虑到与著作权合理使用的差异,数据合理使用更有可能对数据财产权益人的利益造成影响,其适用范围必须严格限定:一方面要以解决市场失灵问题为必要,另一方面也要避免对数据财产权益人的激励造成不利影响。在这一部分,本文将分别从大模型训练数据合理使用的对象、目的、方式及退出等方面,探讨其规则具体内容的建构,并就立法的完善提出建议。
(一)合理使用的对象:公开数据
根据不特定主体是否可以事实上自由访问并获知内容,数据可以分为公开数据和非公开数据。本文认为,大模型训练数据合理使用的对象应限于公开数据,原因如下:
第一,从必要性的角度分析,仅对公开数据适用合理使用足以解决大模型训练场景下的市场失灵问题。首先,大模型训练数据的主要来源是公开数据,保障大模型训练数据的获取和使用首要是要确保公开数据的获取和使用。其次,大模型训练数据市场失灵的问题也主要发生在公开数据的获取和使用上。权益人众多和使用难追溯的问题更为明显地体现在公开数据的获取和使用上,这些问题是造成交易成本上升的主要原因。但在非公开数据的获取和使用上,交易成本偏高的问题并不明显。一方面,只要公开数据的获取和使用得到保障,大模型开发者一般已经能够获得足够规模的训练数据,虽然获取更多非公开的高质量数据对大模型训练也有帮助,但其规模和涉及权益人数量相对较小,采取一对一的直接授权模式也具有可行性。另一方面,未经许可对非公开数据的获取行为往往会留下更多的痕迹,而且许多非公开数据通常是权益人的独有数据,在证明大模型开发者的不当获取行为时,权益人所面临的举证难度也相对较小。因此,将合理使用的对象扩张到非公开数据的必要性不大。
第二,从合理性的角度分析,对公开数据与非公开数据的权益保护和限制应有所区别。虽然公开数据和非公开数据均受法律保护,但公开数据所受的财产权益保护程度应当弱于非公开数据。相应地,公开数据所受到的权利限制也应当强于非公开数据。之所以要区别对待公开数据和非公开数据,首先是因为公开数据被认为具有开放性和公共性。一种流行的观点认为,互联网具有固有的开放性:“它允许世界上的任何人发布其他任何人都可以访问的信息,而无须身份验证。当计算机所有者决定托管网络服务器,以使文件可以通过网络访问时,默认设置是允许公众访问这些文件。”换言之,任何公开在互联网上的信息或数据应默认具有开放性和公共性,允许他人访问和获取这些信息和数据。基于这种观点,对具有公共性的公开数据理应适用合理使用,保障数据的共享流通。其次,未经许可获取和使用公开数据和非公开数据所造成的利益损害程度不同。这与数据持有者对公开数据和非公开数据的利益期待有关。总体而言,数据持有者对非公开数据的利益期待更强。如果要获得非公开数据,经常需要破坏数据持有者采取的保密措施,这对其预期利益的损害和对社会秩序的破坏都更为严重。但相比而言,公开数据更容易被其他主体所获取和使用,在某些情形下甚至可以推定数据持有者默示同意其他主体对数据的获取和使用。
(二)合理使用的目的:用于预训练
大模型的训练过程一般分为预训练(pretraining)和微调(finetuning)两个阶段。预训练是指“使用与下游任务无关的大规模数据进行模型参数的初始训练”。微调则是指在预训练模型的基础上,针对特定的任务或数据进行额外的训练,通常包括指令微调(instruction finetuning)和对齐(alignment)。两个阶段的训练目的有所不同。通俗地讲,预训练是让大模型学习广泛的知识,使之具备通用的语言理解和生成能力。微调则是让大模型在特定领域进行专门学习,以便更好地完成特定任务以及与人类的价值观保持一致。本文认为,大模型训练数据合理使用的目的应限于用于预训练而非微调,原因如下:
第一,市场失灵主要发生在预训练数据的获取和使用上。由于目的不同,大模型开发者在预训练和微调阶段所使用的数据存在较大的差别。在规模方面,预训练会涉及大规模数据的使用,而微调使用的数据量则相对较小。在类型方面,预训练数据不局限于某一领域,微调数据则更多会针对特定的领域或任务。这些差别所导致的直接后果是,预训练数据涉及的数据财产权益人数量和类型更为庞大,其获取和使用可能会产生更高的交易成本,更容易发生市场失灵。而微调数据由于规模较小且往往针对特定的领域或任务,其涉及的数据财产权益人数量和类型都比较有限,一般不会造成特别高的交易成本。因此,大模型训练数据合理使用应主要适用于更容易发生市场失灵的预训练阶段。
第二,对微调数据的获取和使用适用合理使用更有可能造成损害。从数据使用的目的来看,预训练阶段的数据使用比微调阶段的数据使用更具转换性。转换性使用(transformative use)的概念源自著作权法,原意是指以不同方式或基于不同目的对作品进行使用。数据的转换性使用是指在后数据使用者以不同于数据财产权益人的方式或目的对数据进行使用。在转换性使用的情形下,在后使用者的使用方式或目的与在先权益人的使用方式或目的存在较大差别,因而在后使用者的行为对在先权益人市场利益的影响较小,造成损害的可能性较低。预训练的目的是使大模型具有通用的语言能力,这与绝大多数数据财产权益人使用数据的目的存在明显差别,具有显著的转换性,一般不会直接影响数据权益人的市场利益。微调的目的主要是使大模型具备特定领域的知识或处理特定任务的能力,从而可以直接应用于特定的服务或产品,其使用的数据往往与这些服务或产品紧密相关。例如,为了开发提供法律咨询服务的模型,开发者可以在通用大模型的基础上使用法律类问答数据进行微调,从而使大模型具备更丰富的法律知识以及更符合法律咨询要求的生成能力。这些微调数据经常来自提供相同或相似服务或产品的数据财产权益人,包括法律数据库商、法律问答网站等。而基于微调获得模型所提供的服务或产品,很可能与数据财产权益人提供的服务或产品非常接近,甚至有可能构成实质性替代。可见,微调数据的使用转换性程度较低,很可能会严重影响数据财产权益人的市场利益,不宜广泛地纳入合理使用的范围。
(三)合理使用的方式:训练涉及的数据处理行为
大模型训练数据合理使用的方式应限于训练涉及的数据处理行为。数据处理包括数据的收集、存储、使用、加工、传输、提供、公开等。而大模型训练主要涉及收集、存储、使用、加工、传输等数据处理行为。例如,在开始训练之前,开发者需要收集训练所需的数据,将收集到的原始数据加工成机器可读的格式化数据,并存储在一定的介质中;在训练的过程中,则需要将数据传输到训练的服务器上,并使用该数据展开模型训练。这些处理行为可能会落入数据财产权益的控制范围,应当通过合理使用给予侵权豁免,从而方便大模型训练的合法进行。
至于提供和公开行为是否涵盖在大模型训练数据合理使用之中,则需认真考虑和讨论。首先,大模型训练一般不涉及数据的提供和公开。大模型训练数据合理使用所涵盖的范围应当以训练正常进行所需的数据处理行为为限,将超出此范围外的数据处理行为纳入合理使用应当更加慎重。其次,未经许可提供和公开数据有时可能会实质性损害数据财产权益人的利益。从相关案例看,许多数据财产权益人试图阻止的行为主要是对数据的提供和公开行为,而非其他数据使用行为。这是因为在许多情形下,提供和公开数据会对数据持有者的产品或服务构成实质性替代,严重损害数据持有者的利益。在大模型的场景下,也可能会发生类似的情形。如果大模型开发者在使用其他网络平台的公开数据训练大模型后,又通过大模型直接向用户提供相同或相似的信息内容服务,那么就有可能构成对其他网络平台信息内容服务的实质性替代。显然,这种行为应当被明确排除在合理使用的范围之外。
但在有些情形下,允许提供和公开大模型训练数据可以增进社会福利,且一般不会实质性损害数据财产权益人的利益。例如,大模型开发者基于法律对于人工智能透明度的要求而公开部分训练数据,有助于增强模型的透明度,提升公众对大模型技术的监督和信任。又如,有企业专门提供大模型训练数据服务,负责数据的采集、清洗与标注,并将其提供给多个大模型开发者使用,允许此类企业向开发者提供训练数据,有助于降低重复采集与处理的成本,提高社会效率。因此,对提供和公开大模型训练数据是否构成合理使用,不宜采取一刀切的方式,而应采取场景化认定的方法,综合该行为对数据财产权益人利益的影响等因素进行评估。
(四)合理使用的退出:以技术措施选择退出
如上所述,大模型训练数据市场失灵并非完全的市场失灵。在特定情形下,大模型开发者可能会与部分数据财产权益人达成数据许可交易。如果构建过于宽泛的合理使用规则,可能会削弱大模型开发者与部分数据财产权益人达成交易的动力,从而损害数据财产权益人的可得利益。通过立法限定合理使用的适用条件,明确将这些情形排除在合理使用之外,是一种可行的方案。然而,立法者往往囿于信息成本,也不能完全预见到所有可能的情形。很多时候,交易双方的当事人拥有更多的信息,可以根据具体的情形做出既符合自身利益同时也最具社会效率的决策。因此,赋予数据财产权益人选择退出合理使用的权利,有助于在交易成本较低的情形下,促成数据财产权益人与大模型开发者达成交易,从而更有效地维护数据财产权益人的利益。
不过,允许选择退出合理使用也可能引发新的问题。反对选择退出合理使用的观点认为,如果选择退出合理使用的成本过低,权益人可能滥用这一选择权架空合理使用制度。关于选择退出合理使用的机制是否合理,学界早有讨论。最典型的例子便是关于合同排除合理使用条款法律效力的探讨。多数观点认为,应当否定此类合同条款的法律效力。其主要理由是,合理使用制度是著作权法中维护著作权人与公众之间利益平衡的重要机制,如果著作权人可以通过合同排除合理使用的适用,无异于由著作权人单方面重新界定著作权保护的内容和边界,构成“私立知识产权”,进而破坏立法者原本设定的利益平衡。尤其是在点击合同广泛应用的背景下,网络平台非常容易通过合同手段破坏这一制度性平衡,从而加剧对公共利益的侵蚀。此外,欧盟在文本与数据挖掘合理使用规则中引入了选择退出机制,也引发了争议。根据《数字单一市场版权指令》第4条的规定,商业性主体进行文本与数据挖掘可以构成合理使用,但著作权人也享有选择退出这一合理使用的权利。有观点认为,该条款设定的选择退出手段成本极低,不仅导致无法实现促进文本与数据挖掘发展的制度目的,还可能产生显著的社会负外部性。
本文认为,为了防止数据财产权益人滥用选择退出机制,应当在引入这一机制的同时,提高权益人选择退出合理使用的门槛。正如许多观点所担心的,如果选择退出机制的门槛过低,在交易成本很高的情形下,即使数据财产权益人只有很小的概率能够获得许可费用,由于只需付出极低的成本就可以规避合理使用的限制,那么数据财产权益人有可能会抱着投机的心态选择退出合理使用,来保留向使用者主张数据财产权益的可能。这会导致越来越多的情形被排除在大模型训练数据合理使用之外,合理使用的制度目的落空。例如,如果通过机器人协议或服务协议的规定就可以选择退出合理使用,数据财产权益人几乎不需要付出任何成本就可以规避合理使用的限制,那么绝大多数权益人很有可能会选择修改机器人协议或服务协议,来保留向大模型开发者主张权益的机会。正如实证研究所表明的,实践中通过机器人协议或服务协议限制大模型开发者爬取数据的比例正在不断提高。相对合理的方案是,允许数据财产权益人通过付费墙、软件锁等技术措施选择退出大模型训练数据的合理使用。这类措施一般需要数据财产权益人付出较高成本,因此权益人在选择是否退出合理使用时,会权衡退出所能获得的收益与成本。一般情况下,只有与大模型开发者达成交易的可能性较高且所获收益较高时,数据财产权益人才会选择退出大模型训练数据的合理使用。这时,数据财产权益人所采取的行为策略一般会与最具社会效率的决策相契合,既能更好地维护其自身的利益,也会促进社会整体福利的提高。
(五)合理使用立法的完善
在现行法下,通过合理地解释和适用反不正当竞争法相关条款,有可能达到与引入合理使用接近的效果。首先,法院通过对一般条款适用要件的解释,可以将一些合理的数据获取和使用行为排除在规制范围之外。一般条款保护数据财产权益需满足多个要件,包括存在竞争关系、行为具有不正当性以及对数据权益人造成实际损害等。在大模型训练的场景下,法院可以通过对这些要件的解释,给大模型开发者获取和使用数据留下适当的合法性空间。例如,如果大模型开发者获取和使用数据的目的主要是为了科学研究,那么一般情形下可以认定其与数据权益人不构成竞争关系。即便大模型开发者获取和使用数据是为了商业性目的,如果它和数据权益人所提供的服务或产品属于两个不太相关的市场,也可以认定两者不存在竞争关系;或只要大模型训练的行为并未对数据权益人造成实质性损害,也完全可以通过对损害要件的解释,使大模型开发者获取和使用数据的行为免责。其次,《反不正当竞争法》新增的数据条款也存在着解释空间。例如,该条款要求经营者不得以“不正当方式”获取和使用其他经营者合法持有的数据,法院未来可以通过对“不正当方式”的解释,将合理使用的情形排除在数据财产权益的控制范围之外。
但是,这一司法解决方案不能替代立法的完善。第一,上述条款的解释和适用有较大的弹性,无法提供立法所具备的确定性。一般条款本身无法为合理使用的认定提供具体指引,法官在解释和适用该条款时有较多的裁量空间,因此会导致合理使用的认定具有极大的不确定性。“不正当方式”作为一个不确定概念,也无法事前清晰地界定其内涵和外延。这难以为大模型开发者提供稳定的合法性预期,无法为实现合理使用立法提供确定性的作用。第二,随着数据财产权益的权利化,从法理的角度分析,合理使用作为权利限制,原则上应由立法明确规定。数据财产权益与著作权、人格权一样是私权,从私权神圣、意思自治的私法原理出发,私权的限制属于例外情形,原则上应当交由立法以列举方式进行限定,不宜由司法随意解释创设。正因如此,无论著作权合理使用还是人格权(包括个人信息权益)合理使用,我国都采取立法列举的方式加以规定。数据财产权益的合理使用也应如此。因此,有必要在立法层面引入大模型训练数据的合理使用规则。
目前,在人工智能和数据领域,相关立法活动正在加快推进当中。2023年和2024年,国务院连续两年将“人工智能法草案”列入预备提请全国人大常委会审议的法律案。全国人大常委会也将“人工智能健康发展等方面的立法项目”纳入2024年和2025年立法工作计划中的预备审议项目。应当利用这些立法机会,认真考虑建立大模型训练数据的合理使用制度,为大模型训练提供明确的合法性基础,保障人工智能技术和产业的发展。可以考虑的方案包括:第一,在《人工智能法》中单设有关大模型训练数据的合理使用条款。第二,在数据财产权进行立法时设置范围更广泛的数据合理使用条款,并将大模型训练数据的合理使用明确列为其中的一类情形。
结 语
数据财产权益保护的强化给大模型训练数据的获取和使用带来了合法性挑战。基于市场失灵理论的分析可知,在多数情形下,允许开发者合理使用数据进行大模型训练,可以增进社会福利,且不会损害数据财产权益人的市场利益。相比集体管理或法定许可等替代方案,合理使用亦是更优的选择。只要对大模型训练数据合理使用的规则进行适当的设计,确保其适用范围是必要且合理的,就能在技术发展与权益保护之间取得有效的平衡。未来,我国有必要在人工智能和数据立法中认真考虑引入这一制度,为数据要素市场与人工智能产业的发展提供更好的法治保障。
原文刊载于《法学家》2025年第5期“主题研讨一:数字法学研究的多维视角”栏目,转自微信公众号“法学家杂志”。