当前位置:首页 > 文献资源 > 研究报告
研究报告
邱遥堃|生成式人工智能的规制挑战与体系应对
2025年04月15日 【作者】邱遥堃 预览:

【作者】邱遥堃

【内容提要】


生成式人工智能的规制挑战与体系应对






邱遥堃 上海交通大学凯原法学院、中国法与社会研究院副教授,法学博士







摘要:生成式人工智能虽然具有强大到不逊于甚至优越于人类智能的内容生产能力,但并未提出本质上不同于以往的规制挑战,仍然可用现行人工智能规制体系来应对,进而促使这一规制体系更加合理与完善:在运行过程方面,生成式人工智能的技术复杂、利益冲突与人机交互进一步加剧了过程规制的内在困难,但应当一方面将过程规制合理定位为辅助性规制措施,另一方面以信任为目标,进行适当披露,并增加用户参与;在输出结果方面,生成式人工智能发挥的功能类似搜索算法,并服务于平台利益,应当继续坚持结果规制的主导地位,要求其安全可控、公平公正,坚持人工智能应以人为本、服务于社会公共利益;在输入数据方面,生成式人工智能更加凸显了个人信息保护、著作权保护、正当竞争秩序维护中数据保护与利用之平衡的重要性,应当在数据合规同时,通过法律解释为模型发展提供更多可用数据,但应当确保相关数据所创造的更大社会效益普遍地惠及更广大的社会群体。

关键词:生成式人工智能;法律规制;算法规制;数据合规






引言

DeepSeekSoraGPT-4.5等一系列生成式人工智能强大到不逊于甚至优越于人类智能的内容生产能力再次引发了对未来技术发展与技术治理的期盼与恐惧。对此,法学界或关注人工智能生成内容的可版权性、可专利性,思考如何恰当分配其产生的利益,或聚焦人工智能生成内容的数据、算法、信息内容等各类风险,探讨如何在技术提供者、服务提供者、产品提供者等主体之间合理分配法律责任,并实现人工智能治理的更新、转型乃至迭代,甚至更进一步思考生成式人工智能对法律与司法本身带来的机遇与挑战。

然而,生成式人工智能是否需要特别的法律规制? 这一争论不休的前提性问题仍未得到令人满意的回答。特别是,《个人信息保护法》第24条、[7]《互联网信息服务算法推荐管理规定》《互联网信息服务深度合成管理规定》《关于加强互联网信息服务算法综合治理的指导意见》等法律法规已建构起一个针对算法与人工智能的初步规制框架。这一框架是否不足以应对生成式人工智能提出的新挑战,以至于还要出台《生成式人工智能服务管理暂行办法》?

某些学者的答案是肯定的,认为既有规则的延伸适用和法律解释……无法解决因其使动性和嵌入性引发的人类在现实世界、虚拟世界的生存性远虑,某些学者抱有怀疑态度,主张“‘风险立法论,……是风险类型与风险程度两个概念混同所致的”,故特别立法并无必要。但总体而言,法学界对此新技术不论热情拥抱还是保持警惕,都或多或少假定了其具有不同于以往的特殊之处,因此需要规制上的特别对待。

本文希望挑战这一假定,尝试以现行人工智能规制体系来应对新兴生成式人工智能,运行过程、输出结果、输入数据三方面入手对其进行规制,并特别考察生成式人工智能是否提出了现行体系无法应对的规制挑战,抑或其作为被规制对象的特点仍然可以被包容在现行体系之内,仅仅发挥了促使人工智能规制体系更加合理与完善的作用。

也正因此,本文不仅是针对生成式人工智能提出规制对策的专门研究,也试图反思整个人工智能规制体系及其各种理论优化进路的优劣,进而尝试就人工智能规制提出更为合理的整体解决方案:从具体技术的特点切入,通过与相似技术进行比较,发现普遍的技术原理,再回归技术细节的场景化规制。

对于人工智能领域始终面临的发展与安全之平衡问题,本文如无必要、勿增实体的规制思路更多站在发展一边,希望能为新兴技术与产业适当减轻规制压力,但对整体性规制框架的强调也仍然能够守住安全底线,并避免因过于关注新问题而忽视对现有人工智能问题的解决。

一、更居辅助地位的过程规制

(一) 过程规制的具体要求与内在困难

人工智能的过程规制要求提升算法透明度,使人了解并监督其运行过程。例如,《个人信息保护法》第24条第1款前段:“个人信息处理者利用个人信息进行自动化决策,应当保证决策的透明度……”《互联网信息服务算法推荐管理规定》第12:“鼓励算法推荐服务提供者……优化检索、排序、选择、推送、展示等规则的透明度和可解释性,避免对用户产生不良影响,预防和减少争议纠纷。

更具言之,由于代码的技术复杂性与商业秘密性,人工智能的过程规制与算法透明并不要求公开代码,将算法的技术表达直接呈现于用户与规制者,而是要求解释算法,分场景、有层次地说明算法基本原理、目的意图和主要运行机制等,进而取得对算法的信任。例如,《互联网信息服务算法推荐管理规定》第16:“算法推荐服务提供者应当以显著方式告知用户其提供算法推荐服务的情况,并以适当方式公示算法推荐服务的基本原理、目的意图和主要运行机制等。

更进一步,对权益受算法影响重大的用户,人工智能服务提供者还应当承担额外的说明义务。例如,《个人信息保护法》第24条第3款前段:“通过自动化决策方式作出对个人权益有重大影响的决定,个人有权要求个人信息处理者予以说明……”《互联网信息服务算法推荐管理规定》第17条第3:“算法推荐服务提供者应用算法对用户权益造成重大影响的,应当依法予以说明并承担相应责任。

此外,算法备案与安全评估亦属于算法解释的进一步延伸,是对规制者所作的专门解释。例如,《互联网信息服务算法推荐管理规定》第24条第1:“具有舆论属性或者社会动员能力的算法推荐服务提供者应当在提供服务之日起十个工作日内通过互联网信息服务算法备案系统填报服务提供者的名称、服务形式、应用领域、算法类型、算法自评估报告、拟公示内容等信息,履行备案手续。该法第27:“具有舆论属性或者社会动员能力的算法推荐服务提供者应当按照国家有关规定开展安全评估。《互联网信息服务深度合成管理规定》第15条规定亦与此类似。

然而,以提升透明度为主要目标的过程规制进路由于以下三方面原因,仍然存在重大的内在困难:其一,机器学习的引入提高了技术的复杂性,使人工智能与人类智能之间的差别进一步扩大,学习过程与学习成果都难以为人所理解,即使技术专家亦然。其二,过程透明,特别是代码公开,既可能与知识产权、商业秘密等私人权利保护相冲突,也可能危害国家安全与社会秩序,损害公共利益,因此掌握技术的私人主体往往没有动力进行信息披露,甚至有可能进行干扰性披露。其三,也是最为重要的是,技术与人类在本质上天然存在无法弥合的区别:我们既难以在科学认知的意义上充分理解、也无法在感性常识的意义上了解基于机器学习的人工智能,因此对本质上有别的这一异类很难取得我们信任,更何况人工智能经常出错,要么能力不足无法完成既定任务,要么能力过强侵犯他人利益与公共利益,还不值得信任。

(二) 生成式人工智能对过程规制的挑战

生成式人工智能的所用技术更为复杂、所涉利益冲突更为剧烈、所产生的人机差别更为显著,因此对过程规制提出了更大的挑战。

首先,生成式人工智能的技术复杂性给过程规制提出了更大的挑战。在技术原理方面,生成式人工智能迥异于人类智能与过往其他类型人工智能。其内容生成过程通常是给定一个初始单词或一段文本作为起点,已训练的模型会根据在训练过程中学到的特定模式和规律,结合当前上下文,预测下一个单词或字符,并不断依此方式生成后续内容,直到达到设定的生成长度或结束标记。

在模型结构方面,生成式人工智能尽管具有与其他类型人工智能类似的三层结构(基座模型专业模型服务应用),但其基座模型的交互性、通用性与赋能性更强,涌现能力剧增,更具备面向消费者、企业与政府各端,赋能千行百业,通往通用人工智能的潜力,也不可避免地蕴含更为巨大的社会风险

在参数规模方面,生成式人工智能的超大规模参数也导致各种各样试图落实过程透明的举措都越发失效,基于充分了解而产生信任或进行控制更不可行。例如,GPT系列所依托的 TranSformer深度学习模型,在前馈神经网络中引入自注意力机制,具有高达百万亿且呈指数级增长的参数量,是经典的黑箱算法,目前无法进行全局解释,而局部补充解释的可信度存疑,还可能破坏技术信任、误导政策制定。数据显示:GPT-1的参数量为1.17亿,GPT-2的参数量为15亿,GPT-3的参数量为惊人的1750亿, GPT-4的参数量虽未披露,但多项预测显示将达100万亿,SoraGPT-4o的参数更将无以复加地增长。

其次,生成式人工智能的过程规制也将引发更大的利益冲突问题。一方面,作为备受各大企业乃至各大国重视并且尚处于快速发展阶段的新兴技术,生成式人工智能技术的知识产权与商业秘密保护需求巨大,而过程规制的公开透明要求显然与之剧烈冲突。例如,美国众议院外交事务委员会于2024523日以压倒性多数通过《加强海外关键出口限制国家框架法案》(Enhancing National Frame Worksf or Overseas Restriction of CriticalExports Act),借助补充 AI相关定义、赋予总统管制权、增加美国人从事 AI模型出口相关活动的许可义务等等方式, AI模型,特别是开源模型,进行出口管控。这对我国国内许多基于开源大模型的二次微调套壳模型之研发产生重大而深远的影响,体现了生成式人工智能技术应受保护的重要需求与过程规制之间的显著冲突。

另一方面,公开生成式人工智能的技术原理,特别是其与内容治理相关的技术信息,亦将加剧算法规避与算法算计问题,对社会公共安全乃至国家安全造成严重威胁。众所周知,生成式人工智能可被用于生成违法违规信息、教导违法犯罪行为。为协调生成式人工智能的性能优化与合法合规,需要在其外部嵌套另一个发挥审查作用的人工智能,阻止输出违法违规生成结果。但这一人工智能审查极易被规避:只需转换适当提示词,以学习知识等方式进行表述,即可诱导人工智能生成本不应生成的内容。如果公开生成式人工智能及其相关审查式人工智能的技术原理,这一算法规避与算法算计必将更为容易,随之而来的有害后果必将更为普遍且严重。

最后,生成式人工智能的交互性激增似乎缩小了人机差别,但在更为仔细的审视下,人机之分仍然存在,激增的交互性既可能加强信任,也可能加剧恐惧。例如,GPT-4o的语音交互不仅具有更强的实时响应能力,也允许用户打断模型的语音输出,还能生成各种不同情绪风格的语音,非常接近人与人之间的对话交流。但其模型训练与运行的基本原理并未改变,其行为和反应仍是基于算法对数据的处理而非真正的理解或情感体验,其所谓创造力实际上受限于预设的参数与训练所用的数据集。

因此,我们不可能把它们当作相似的同类,寄托情感方面的需求。如果我们真的被它们表面上的创造与共情能力所迷惑,过分信任乃至依赖它们,可能导致在许多重要事务中的决策权力与主导地位被削弱乃至丧失,以及与之相伴的由于人工智能过于强大或不够强大而产生的各种错误,例如智慧司法中的技术依赖可能挑战权力专属原则、造成司法监督困境、难以认定与分配责任。更重要的是,由于当前人工智能尚未发展到强人工智能水平,而在很大程度上取决于技术开发者、所有者与提供者,因此其权力与地位事实上意味着后者的权力增大、地位提升与不当影响的可能性增加。所以人机之分并未消除,更强的交互性只是表象,其实埋藏着更大的安全风险与失控隐患,理解与信任的鸿沟仍然存在,甚至进一步扩大。

(三) 过程规制的合理定位与规则细化

尽管生成式人工智能大大加剧了过程规制的内在困难,但应对之道既不应当是完全抛弃要求公开透明的过程规制,也不应当是继续坚持要求过高的过程规制水平,而应当是对过程规制进行合理定位与规则细化:一方面,考虑到过程规制的上述困难,我们或许不可能也不应当将其作为人工智能规制的主导性措施,而最好将其定位为辅助性规制措施,支持下文所述对结果与数据的规制;另一方面以信任为目标,细化算法透明与算法解释的相关规则,使开发者能够向公众与规制者说明其人工智能的安全可信。

实际上,由于上述内在困难早已存在,这一定位与细化并非新鲜事物。亦有证研究显示:算法解释的有效性往往取决于解释主体的披露意愿、解释对象的理解能力、解释技术的匹配性,其后果十分不确定;而且算法解释与算法信任之间的关系其实既不充分、也不必要,算法信任更多取决于场景的信任基础、人机判断的一致性等因素。但生成式人工智能对技术复杂性、利益冲突与人机之分的放大,必将有力推动这一合理定位与规则细化的加速发展,从而促使整个人工智能规制的体系结构更为合理,实施效果更为良好。

就此而言,《生成式人工智能服务管理暂行办法》的相关规定既未有别于以往规定,亦未突出新的定位、细化新的规则。其第4条第5项规定了过程透明的一般原则:“提供和使用生成式人工智能服务,应当遵守法律、行政法规,尊重社会公德和伦理道德,遵守以下规定:()基于服务类型特点,采取有效措施,提升生成式人工智能服务的透明度……”其第17条规定了备案与安全评估制度:“提供具有舆论属性或者社会动员能力的生成式人工智能服务的,应当按照国家有关规定开展安全评估,并按照《互联网信息服务算法推荐管理规定》履行算法备案和变更、注销备案手续。19条第1款规定了对有关主管部门的说明义务:“有关主管部门依据职责对生成式人工智能服务开展监督检查,提供者应当依法予以配合,按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助。

但如何在不可能完全了解的前提下对生成式人工智能保持控制或产生信任? 前者需要下文所述对结果与数据的控制,此处不赘;后者则需要开发者以信任为目标,对生成式人工智能进行适当的信息披露。其实,由于神经科学、脑科学的发展有限,我们对人类智能亦不完全了解,亦有黑箱问题。但我们能够信任人类决策,一方面是因为我们通过一系列制度设计而最小化了决策错误的风险,更重要的另一方面则是因为我们即使不完全理解大脑运行过程,也基本了解一般思维过程,而这一了解基于我们实际思维的经验与越来越多的科学知识积累。

所以,尽管存在前述困难,欲使生成式人工智能获得更多公众与决策者支持,技术开发者仍应当善意地进行适当的信息披露,使二者更为了解技术的运行过程与可能产生的价值与风险。例如,生成式人工智能的开发者可以定期发布透明度报告,详细说明人工智能的工作原理、数据收集和处理方式,以及算法决策过程;或通过举办公开的网络研讨会、工作坊或讲座,向公众解释生成式人工智能技术的最新进展、应用案例和潜在社会影响;抑或在设计生成式人工智能的用户界面时,采用更直观、易懂的方式展示其工作流程和决策结果。

甚至,有时候信任并不基于更充分的信息披露,而是基于长期交易形成的稳定预期:这需要新技术的开发者将用户更深地纳入生成式人工智能的开发、应用与优化的全生命周期,在亲身参与中增强用户对算法的理解与信任,消除对技术黑箱的恐惧。

在开发阶段,开发者可以通过用户调研、焦点小组讨论或共同创造工作坊,邀请用户参与到人工智能产品的初步设计中。在应用阶段,为了帮助用户更好地理解人工智能技术,开发者可以提供在线教程、用户手册或互动式学习模块,解释人工智能的工作原理、优势和局限性;同时,开发者应当努力提高人工智能的透明度,通过可视化工具或解释性界面,向用户展示算法的决策过程。在优化阶段,开发者可以建立一个持续的反馈机制,让用户能够报告使用中出现的问题,对人工智能的实际表现进行评价,进而提出改进建议,帮助开发者对技术进行迭代优化。此外,开发者还可以建立用户社区,提供一个平台让用户分享经验、交流技巧,并与开发者就人工智能技术可能带来的风险和伦理问题进行坦诚的直接沟通,并展示他们为确保安全和公正所采取的措施,建立更深层次的共生式合作关系。

二、 更占主导地位的结果规制

(一) 结果规制的具体要求与内在困难

人工智能的结果规制要求输出结果安全可控、公平公正,不得造成损害与歧视,本质是要求人工智能作为技术工具必须以人为本,服务于社会公共利益,既不能侵犯社会整体利益,也不能侵犯组成社会的部分(特别是弱势)群体之利益。

一方面,人工智能应当保证安全可控,不得对国家安全、社会公共安全与私人人身财产安全造成损害。例如,《互联网信息服务算法推荐管理规定》第6:“算法推荐服务提供者应当坚持主流价值导向,优化算法推荐服务机制,积极传播正能量,促进算法应用向上向善。算法推荐服务提供者不得利用算法推荐服务从事危害国家安全和社会公共利益、扰乱经济秩序和社会秩序、侵犯他人合法权益等法律、行政法规禁止的活动,不得利用算法推荐服务传播法律、行政法规禁止的信息,应当采取措施防范和抵制传播不良信息。而第715条通过制度建设、技术审核、信息安全管理、用户标签管理、页面生态管理、新闻服务许可、反垄断与不正当竞争等具体措施落实了正向引导与守住底线的信息服务管理要求。《互联网信息服务深度合成管理规定》第6条第1款规定的原则与之类似,2款特别强调虚假新闻信息治理:“深度合成服务提供者和使用者不得利用深度合成服务制作、复制、发布、传播虚假新闻信息。转载基于深度合成服务制作发布的新闻信息的,应当依法转载互联网新闻信息稿源单位发布的新闻信息。713条亦以前述类似方式落实了信息服务管理要求。

另一方面,人工智能应当保持公平公正,不得根据经济、政治或社会因素等实行不合理的差别待遇。例如,《个人信息保护法》第24条第1:“个人信息处理者利用个人信息进行自动化决策,应当保证决策……结果公平、公正,不得对个人在交易价格等交易条件上实行不合理的差别待遇。《互联网信息服务算法推荐管理规定》第1821条分别针对未成年人、老年人、劳动者、消费者的权利规定专门的结果规制义务,以加强对弱势群体保护的方式维护社会公平。《国务院反垄断委员会关于平台经济领域的反垄断指南》第17条进一步罗列分析是否构成交易上的差别待遇可以考虑的因素:“()基于大数据和算法,根据交易相对人的支付能力、消费偏好、使用习惯等,实行差异性交易价格或者其他交易条件;()实行差异性标准、规则、算法;()实行差异性付款条件和交易方式。

然而,由于人工智能发展与安全之间不可避免的冲突,结果规制亦存在内在困难。具体而言,安全可控与公平公正皆为模糊的标准或原则,在实际适用时无法为行为提供精确事前指引,特别可能为追求安全而有损技术效率的提高。例如,如果不比较自动驾驶汽车与非自动驾驶汽车的事故发生概率,仅以自动驾驶汽车可能发生事故、危害道路交通安全与其他司机、乘客、路人的人身财产安全为依据,即有可能因过分追求结果的安全可控而阻碍产业发展。又如,如果不考虑新用户优惠、会员优惠等合理的交易习惯与行业惯例,仅以电子商务平台或共享经济平台针对不同用户实施差别待遇为依据,即有可能因过分追求结果的公平公正而限制新经济发展。一般而言,输出结果端承担的更大合规压力与潜在规制权力滥用不利于新技术非法兴起”:人工智能应用可能被限制发展潜力,包括当前利益受损群体在内的整个社会可能错失由人工智能发展而带来的卡尔多希克斯改进。

(二) 生成式人工智能对结果规制的挑战

生成式人工智能从输出结果观之,反而并未对现行规制体系提出更新更大挑战,因为其实际功能类似搜索算法,结果规制亦可参考对搜索算法采取的既有规制措施。诚然,二者技术原理完全不同,输出结果亦有所差别:搜索算法输出的是用户所需要的信息集合,实现的是人与信息的匹配功能;生成式人工智能输出的是用户所需要的直接信息,实现的是信息的生产功能。但就技术功能,特别是用户体验而言,二者皆是以用户输入信息为基础,通过算法获得与该信息中所包含的意图最匹配的结果,为用户提供其希望获得的信息,仅仅展示方式有所不同,前者仅仅提供问题相关的信息集合,后者可以直接提供答案而不需要用户在搜索结果中进一步筛选提炼。所以,生成式人工智能与搜索算法存在功能上的相似性

司法实践与行业实践亦能佐证这一功能相似性。一方面,在域外司法实践中,搜索引擎平台为抵制算法规制,主张自身通过算法计算和展示的信息亦构成一种言论,对算法的干预和规制是对言论自由的侵犯,于是更加类似生成式人工智能所提供的回答。更何况,互联网自诞生之初即背负了究竟是管道还是编辑、应当承担多大程度责任的争议,编辑身份以及此后互联网平台对用户言论越来越大的引导与治理能力,也与生成式人工智能所提供的回答越发相似。另一方面,谷歌与微软此搜索引擎领域的互联网二巨头皆积极引入生成式人工智能,用来弥补当前搜索引擎无法精准回答问题的短板,以提高搜索效率与用户体验。百度搜索也迅速整合自家生产的生成式人工智能文心一言”,试图发挥中文语料数据积累的优势,努力在又一轮新技术竞争中不落人后。由此亦可见,生成式人工智能在很大程度上可以增强甚至替代搜索引擎。

从互联网发展的更长时间维度观之,生成式人工智能的发展事实上与互联网平台的发展之间具有内在的契合关系,因而在规制上可以保持一定程度延续性。一般而言,互联网平台运用数据与算法为工具来调配零散社会资源,从而在企业内部建立双边市场,其数字性成为其双边性的基础。具体而言,搜索算法与推荐算法以用户输入信息为基础,结合用户填写与行为表现出的其他信息,以及商品、服务、信息提供者信息,为用户提取并按一定顺序展示其最可能想要的东西,从而促成市场交易。然而零散社会资源的调配仍然存在效率上限,而新信息技术的能力尚未充分发挥,因此以匹配为核心的互联网平台模式具有向以生产为核心的模式转型的趋势。对信息而言,这意味着不能仅仅提供信息集合,而最好直接提供答案。于是,互联网平台的双边性被其数字性所扬弃,最终成为主动提供信息、商品与服务的单边平台,进而需要生成式人工智能的技术支持,正如搜索引擎向ChatGPT的发展。

更进一步,生成式人工智能与互联网平台模式的本质相似性不仅在于前者代表了后者与匹配式人工智能的未来发展方向,还在于其训练、运行、评估与优化的过程即互联网平台模式的复刻。生成式人工智能一方面收集了海量数据用于训练、评估与优化模型,另一方面收集了用户输入信息作为生产内容的提示词,事实上是将搜索引擎的信息提供者一端后置并内化于己。也正因此,它才与匹配式人工智能在数据输入与模型训练方面存在相似性,并与搜索引擎输出类似的结果、具有相似的利益分配问题。在这个意义上,它也最能体现互联网平台的主体地位、其信息内容的言论性质:它不仅是信息编辑,还是社论作者,因此在享受言论自由、著作权等权利的同时也应承担相应的法律责任。

(三) 结果规制的继续适用与总体反思

既然生成式人工智能从输出结果观之,并未提出本质上有别的规制问题,而且由于上文所述生成式人工智能技术所致公开透明的过程规制进路的更大局限性,输出结果的合法合规更应占据生成式人工智能规制乃至一般人工智能规制体系的主导地位。因为再复杂的技术也必然要产生现实的后果与影响,而这可以成为规制的起点,而且结果规制也是公共权力机关更为擅长判断、无须借助技术辅助人员的领域。正如我们对专业人士的信任往往基于其结果成功率(律师的胜诉率、医生的治愈率、老师的学生合格率、政客的承诺兑现率等)而非对其专业过程的了解或理解,如果能够通过对生成式人工智能的输出结果施以法律法规的相关要求从而进行控制,证明不会造成损害后果,只会创造社会价值,那么即使我们不完全了解其技术过程,也不用担心其失控”,因而可以进行使用。如果无法控制其后果、证明其无害,那么限制甚至暂缓其使用就是更为可取的解决方案。前述方案无须涉及困难的技术认定,可以转而将此问题抛回给更有能力的技术人员。因此,结果规制的主导适用与过程规制的配合,也意味着法律人与技术人员之间更为合理的劳动分工

就此而言,《生成式人工智能服务管理暂行办法》的相关规定亦未有别于以往规定。其第4条第()()()()项规定了结果合规的基本原则:“()坚持社会主义核心价值观,不得生成煽动颠覆国家政权、推翻社会主义制度,危害国家安全和利益、损害国家形象,煽动分裂国家、破坏国家统一和社会稳定,宣扬恐怖主义、极端主义,宣扬民族仇恨、民族歧视,暴力、淫秽色情,以及虚假有害信息等法律、行政法规禁止的内容;()在算法设计、训练数据选择、模型生成和优化、提供服务等过程中,采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视;()尊重知识产权、商业道德,保守商业秘密,不得利用算法、数据、平台等优势,实施垄断和不正当竞争行为;()尊重他人合法权益,不得危害他人身心健康,不得侵害他人肖像权、名誉权、荣誉权、隐私权和个人信息权益。该法第9条第1款前段规定了其一般性网络信息安全义务:“提供者应当依法承担网络信息内容生产者责任,履行网络信息安全义务。该法第14条规定了发现违法内容以后应当采取的措施:“提供者发现违法内容的,应当及时采取停止生成、停止传输、消除等处置措施,采取模型优化训练等措施进行整改,并向有关主管部门报告。提供者发现使用者利用生成式人工智能服务从事违法活动的,应当依法依约采取警示、限制功能、暂停或者终止向其提供服务等处置措施,保存有关记录,并向有关主管部门报告。

首先,就结果合规而言,更具体的首要要求仍应当是安全可控,防止新技术对国家安全、社会公共安全以及私人人身财产安全造成损害。既然人工智能生成的是内容”,那么对其适用有关内容治理的法律法规并配备相应人工审核与用户反馈机制,便理所当然:《网络安全法》《互联网信息服务管理办法》《网络信息内容生态治理规定》中的九不准规定能够有效守护内容安全底线,前述《生成式人工智能服务管理暂行办法》第4条也基本予以延续。但由于生成式人工智能的技术原理决定了其特别可能产生幻觉(Hallucination),即根据预训练而得到的模式和规律对下一个单词不断进行预测,对形式连贯的追求压倒了对内容正确的追求,最终生成形式规范但实质错误的信息,真伪难辨,而且数量往往巨大或潜藏于海量信息中,因此其内容安全问题面临特别的困难。对此,当前解决方案主要是以内容标识引起用户更多警觉(《生成式人工智能服务管理暂行办法》第12),但应当注意标识的醒目程度、实际作用。未来则期待技术进一步发展,减轻甚至消除幻觉问题或针锋相对地开发审核算法。

其次,结果合规还要求生成式人工智能的输出结果必须保持公平公正,不能根据经济、政治或社会因素进行不合理的差别对待。生成式人工智能可能会产生偏见差异,给某些群体的人物赋予不正确或负面的特征;也可能会导致聚焦不足,更关注一部分群体的信息而忽略其他群体;还可能输出带有歧视性或侮辱性的语言表达。所以,需要在训练过程中确保数据多样、平衡并正确标记以外,对生成内容进行监督和审查,及时发现并纠正其中可能存在的歧视,确保输出结果的公平公正;同时建立用户反馈机制,鼓励用户向开发者报告其中可能存在的歧视,以便及时修正与改进;特别是,需要利用公众智慧,发现掩盖在合理差别对待之下的不合理之处,将深层的歧视问题揭露出来。

最后,不论安全可控还是公平公正,本质上都是要求生成式人工智能作为技术工具必须以人为本,服务于社会公共利益。更大法律责任的施加确实会使生成式人工智能的发展负担更高成本,但据此认为其发展将会受到阻碍,可能造成更大的不安全或社会福利损失,或许也使之偏颇。因为不论是发展还是治理生成式人工智能,本质上都是为了社会公共利益的增进,只不过采取的方法不同,相应的成本收益计算亦有差异。如果不施加必要的结果规制要求,放任技术自由发展,那么掌握技术的数字平台与数字资本只会考虑如何才能最大限度地增进自身利益,技术发展的社会成本往往无法进入其成本收益计算。不能因为施加规制要求而产生的成本更为明显可见,即无视自由发展可能产生的另一方面成本。

三、 更需利益平衡的数据合规

(一) 数据合规的具体要求与内在困难

人工智能的数据合规要求输入数据遵守个人信息保护、著作权保护与正当竞争的三方面法律要求。

个人信息保护而言,首先,处理个人信息的前提是满足法律规定的合法性基础,其中最重要者为取得个人的知情同意。其次,处理个人信息应当满足目的限定、最小化要求,并提供退出选项。最后,即使是合法公开的个人信息,处理也应当限定在合理的范围内,并且排除个人明确拒绝的部分,同时在对个人权益有重大影响时应再次取得个人同意。就著作权保护而言,人工智能企业需要或取得著作权人许可,或在无权使用时进行侵权损害赔偿,除非构成合理使用。就正当竞争而言,人工智能企业利用数据爬虫获取其他企业数据可能构成不正当竞争,甚至非法侵入计算机信息系统罪、非法获取计算机信息系统数据、非法控制计算机信息系统罪。

不论是个人信息保护、著作权保护、竞争法规制,都面临数据保护与利用之平衡的内在困难。一方面是个人信息主体、著作权人、数据持有者的利益需要得到保护,否则可能造成信息隐私、信息自决受侵犯,创新创造激励不足,企业经营受到不正当影响等负面后果。在互联网非法兴起的过程中,个人权利、传统行业所受损害即可成为佐证。另一方面,过度保护个人信息、著作权、数据持有者权益,也不利于数据的充分流通利用与新技术、新产业的充分发展壮大,甚至可能不符合个人信息主体、著作权人、数据持有者的利益,因为数据流通利用也对他们的利益有所促进,例如个人可以享受更为精准的推荐服务,著作权人可以扩大自己的声誉收益并便捷利用他人著作权展开进一步创作,数据持有者可以分享数据汇集与处理而产生的更多收益。因此,《个人信息保护法》通过知情同意以外的其他合法性基础、合法公开信息的合理处理、敏感信息与非敏感信息的区分等,《著作权法》通过合理使用、法定许可、思想与表达二分等,《反不正当竞争法》通过个案利益衡量,来平衡数据保护与利用,从而服务于人工智能发展与安全之平衡。

(二) 生成式人工智能对数据合规的挑战

生成式人工智能的训练与优化同样需要数据,而且其规模之大令个人信息保护、著作权保护与正当竞争方面的法律风险剧增。首先,需要收集大量各种来源和类型的数据,并进行预处理来清洗和统一格式;然后,根据任务的特点和需求,选择合适的生成式模型,将输入数据投喂给模型,使之通过监督学习或无监督学习掌握其中的统计规律来生成输出;最后,通过验证和评估,不断调整参数,优化模型性能,直至达到所需的水平,具备生成高质量、多样化的输出的能力。这一过程的每一步都需要海量数据支持,于是可能与个人信息保护、著作权保护、正当竞争等要求相冲突,需要确保数据合规,免除相关法律风险,进而避免经由数据训练与优化而得的算法输出可能造成损害的结果。

前述数据来源非常广泛,但类型上主要包括公开数据、购买数据、内部数据这三个方面,并分别面临不同程度的数据合规风险。

其一,公开数据,既包括政府机构、学术机构或部分企业发布的公开数据(ImageNetCOCOWMT),也包括通过自动化的网络爬虫技术从互联网上收集数据(如网页内容、用户生成内容、新闻作品等)。就个人信息保护而言,这一部分数据的合规要求看似较轻,只需满足公开个人信息处理所需的合理范围、拒绝例外与部分单独同意即可。但合理范围的界定并非易事,而且生成式人工智能训练所需的数据规模将导致拒绝例外与部分单独同意的合规压力仍然过大,更何况联系公开数据主体更为困难。就著作权保护而言,由于受法律保护的作品认定标准较低,因此公开数据中很可能包含大量著作权,特别是用户生成内容与新闻作品,因此生成式人工智能训练将背负沉重的著作权合规负担,更何况孤儿作品的存在亦将进一步增大这一负担。就正当竞争而言,上文已述,网络爬虫引发的纠纷是互联网不正当竞争的重灾区,即使行为不构成侵犯个人信息或著作权,反不正当竞争亦可能成为生成式人工智能数据合规的兜底条款。

其二,购买数据,既包括从数据供应商处购买的特定类型的专业数据集(如医学、法律、金融等领域的专业文献和报告),也包括通过众包平台收集的、用户用以换取奖励或认可的数据(如百度众包、蚂蚁众包、网易众包等),还包括合作伙伴和第三方的数据。这一部分数据由于已支付被推定为合理的对价,因此法律风险相对较小。但仍然存在问题:一方面是数据供应者自身是否有权出售、传输相关数据,是否向个人告知其个人信息接收方的名称或姓名、联系方式、处理目的、处理方式和个人信息的种类,并取得个人的单独同意,或者是否著作权人或取得著作权人许可。另一方面是,作为数据购买者与接收者的生成式人工智能企业,是否在前述处理目的、处理方式和个人信息的种类等范围内处理个人信息,或重新取得个人同意以变更原先的处理目的、处理方式,以及是否在许可的范围、性质、地域、期限内使用著作权。

其三,内部数据,既包括企业自己收集和生成的数据,也包括通过计算机模拟生成的、用于在没有足够真实世界数据的情况下训练模型的数据。这一部分数据的合规要求更轻一些,不仅因为其所占比重较小,更因为其利益相关方较少也较容易确定,法律关系相对简单。但轻重只是相对的,企业自己收集数据仍然需要满足前述法律法规要求,相关负担并未免除。

(三) 数据合规的利益平衡与法律解释

生成式人工智能作为新兴数字技术对海量数据的需求进一步放大了数据保护与利用之平衡的困难。如果在数据处理方面对其施以个人信息保护、著作权保护、正当竞争维护相关的过重责任,可能不利于其长远发展及其可能带来的正面社会收益之释放,更不利于我国在新一轮技术革命中竞争主导地位。因此,《生成式人工智能服务管理暂行办法》第7条第()项要求使用具有合法来源的数据和基础模型”,事实上即可能赋予企业过重的法律负担,可能引发个人信息与著作权相关权利人的维权,或数据持有者提起的反不正当竞争诉讼,而考虑到生成式人工智能所用数据的超大规模,海量维权行动不仅难以为技术开发者所承受,亦难以为法院等公权力机关所承受。

因此,就个人信息而言,原则上可以继续遵守相关合规要求:以取得个人同意或者符合法律、行政法规规定的其他情形作为处理基础,完善告知同意、退出机制、利益补偿,并且收集真实、准确、客观、多样的训练数据,覆盖不同种族、性别、年龄、文化等群体,避免产生偏见,同时确保正确标注训练数据,以消除可能存在的质量低下或不公对待问题。《生成式人工智能服务管理暂行办法》第7条第()()(),8,11条即延续这一合规思路。但规制上的改进方案或许可以包括:更多侧重个人同意以外的合法性基础;扩大解释处理目的以免除处理限制;对合法公开之个人信息的处理适当放松规制要求,合理范围适当扩大,减少拒绝例外与部分单独同意的适用。

就著作权而言,合理使用制度的适当解释可以成为平衡著作权保护与利用的重要杠杆。如果生成式人工智能对著作权的使用仅仅是为训练模型的目的,而非生成可能与之竞争市场份额、减少其市场收益的作品,那么认定为合理使用便更可能得到支持。因为为个人学习、研究或者欣赏,使用他人已经发表的作品属于合理使用,生成式人工智能的训练过程虽与人类学习过程不同,但仍然属于广义的学习,即输入知识而获得智能的过程。更重要的是,这一技术发展亦能进一步赋能创作者,使之具有更强大的工具或受到更意外的启发。但如果将生成式人工智能输出的结果认定为作品、享有著作权,那么相应地其训练过程对著作权的使用就要取得许可并支付合理对价。

就正当竞争而言,应当保持反不正当竞争规制的谦抑性,避免固化既得利益者利益,对新兴技术与产业发展造成阻碍。一般而言,生成式人工智能企业对公开数据的使用并未触及法律或社会规范的底线,如果进行竞争法规制,或许仅仅维护了既得利益者利益,而对竞争秩序乃至社会福利促进有限。具体而言,《反不正当竞争法》第2条的一般条款过于宽泛,可能成为口袋条款,应当限制适用,避免法律规制吃力不讨好。但社会规范、商业习惯、行业惯例仍然可以发挥柔性规制作用,逐渐形成稳定规则以后再指导法律或上升为法律。诚然,数据的保护与利用之间存在很大程度非此即彼的竞争关系,如果加强利用则必然意味着减轻保护,但如果为了取得更大的卡尔多希克斯改进,或许不得不两害相权取其轻,为生成式人工智能的发展及其可能创造的更大社会效益,暂时牺牲部分数据保护相关利益。但应当牢记,平衡数据保护与利用所创造的更大社会效益应当更普遍地惠及更广大的社会群体,而非使投入巨大社会成本而得到的生成式人工智能成为少数人谋取利益的工具,而这需要对生成式人工智能的输出结果施加如上所述的规制要求。

结语:反思人工智能规制

本文探讨生成式人工智能的法律规制,是以现行人工智能规制体系为基础,结合生成式人工智能从输入、运行到输出各环节的特点,考察是否存在无法回应的规制挑战,最后微调整个规制方案,使之不仅更适合于生成式人工智能规制,也成为更合理的人工智能规制总体方案。总体而言,这一规制方案仍遵循场景化思路,以技术分析与比较为基础,避免陷入过于一事一议的特别规制陷阱,不至于对新技术给予过多豁免或施加过重负担,也使得各类新技术的规制能够有所统一。因此在结语部分,本文希望对人工智能规制乃至更一般的技术规制,展开方法论上的反思。

场景化规制方法是应对新技术问题、特别是新技术的复杂性与利益冲突的有力工具。但场景化方法本身面临三方面问题:首先是实质性不足,场景理论与具体问题具体分析似乎并不存在本质性差别,而现实执法所常用的分类分级管理亦是一种场景化,因此多引入一个理论标签能够对分析提供的实质性帮助相当有限;其次是公平性有欠,由于其缺乏体系性,可能造成横向与纵向的不一致,不利于相对于个案公平的普遍公平,而分析效率也由于场景的具体性而丧失,导致效率与公平皆有所不足;最后是循环论证,由于法律本身对特定场景的行为预期即有规范,因此以场景分析来细化法律规定,存在循环论证的隐忧,并且由于新技术对现行社会秩序与利益格局的扰乱而缺乏相应的社会规范共识,从而更加依赖制定法对新问题的判断。所以,看似完美的场景化规制方法事实上并不完美,实质性不足、公平性有欠、可能导致循环论证等问题大大减损了其实际效用。

因此,有学者试图以体系化、模块化规制方法替代场景化规制方法,以自主程度的大小、风险程度的高低为依据,对新技术进行成体系、分模块的规制。但在操作层面,自主程度与风险高低两个指标之间并不独立,而是相互纠缠、难以分割,因此并不适于作为划分依据;而且以风险高低作为评价指标,容易混淆风险类型与风险程度,导致规制误判, 而以自主程度作为评价指标,容易过于减轻开发者与使用者的责任,导致风险与利益分配的不均衡。更重要的是在原则层面,体系化、模块化规制方法仍然需要落实到具体场景,针对具体场景进行适应,否则始终面临一般规范与具体事实之间的鸿沟问题。因此,尽管体系化、模块化规制方法有利于减轻场景化规制方法的实质性不足与公平性有欠之问题,但其实质内容仍然有待填充,需要进一步发展,而且无法完全免除场景化规制,毋宁说其是对场景化规制的考虑指标所进行的进一步优化。

还有学者以不同技术的不同功能作为区别规制的依据,例如区分人工智能的生产性与辅助性功能。 然而本文分析显示,功能主义规制方法可能并不具有普适性。对信息与数据的利用与保护问题而言,区分其展示性与辅助性功能,从而施以不同程度的保护水平,进而合理促进其利用,是合适的规制方法。但对算法与人工智能的规制问题而言,区分生产性与辅助性功能对规制所具有的实益可能有限:在技术比较视野下,不同功能的人工智能算法仍有过程、结果与数据方面的相似性,皆反映了数字平台与数字资本的控制模式,需要解决发展与治理的协调问题。因此,功能主义规制方法在基于技术比较的场景化审视下,可能仅具有概念分类上的意义,对技术规制的实质贡献有限,仍然需要回到场景化规制

因此,由上述生成式人工智能的法律规制可见,虽然场景化规制方案具有实质性不足、公平性有欠、可能导致循环论证等问题,但以自主程度、风险高低或技术功能作为规制抓手,仍无法建构有效的人工智能规制方案,不足以应对具体技术提出的规制问题,很可能在区别规制与统一规制之间摇摆不定。因此,从具体技术的特点切入,通过与相似技术进行比较,发现普遍的技术原理,再回归技术细节的场景化规制,或许仍是相对可行可欲的规制方案。




原文刊载于《南大法学》2025年第2期,感谢微信公众号“ 南大法学”授权转载