上海交通大学中国法与社会研究院

2024年05月27日【作者】唐应茂预览：

【作者】唐应茂

【内容提要】

生成式人工智能助力审判工作现代化

唐应茂复旦大学法学院教授、上海交通大学中国法与社会研究院企划委员会委员

随着生成式人工智能的快速发展，尤其是视频生成模型Sora的出现，诉源治理工作面临着前所未有的机遇与挑战。Sora的视频生成能力可以极大地提升法律宣传、案件立案、证据展示等诉源治理环节的效率和效果，同时也可能引发证据造假、隐私侵犯等一系列问题。通过分析Sora对法院诉源治理工作管理带来的挑战，提出加强法院信息化建设、建立健全数据安全与外包服务管理规范以及适时调整管理机制以适应人工智能发展需要的应对策略。

引言

Sora能够将文字快速“变成”视频，而且，所生成的视频栩栩如生，与人类拍摄的真实电影几乎没有差别。2024年春，美国OpenAI（以下简称开放人工智能公司）发布Sora生成的测试视频之后，好莱坞制片人和导演泰勒·派瑞（Tyler Perry）宣布，它将停止8亿美元的电影制片厂扩建计划。他表示，“如果我想身处科罗拉多的雪地里，或在写一个月球上的场景，我可以用文本通过人工智能轻松生成”，“我不再需要前往外景地了”。硅谷钢铁侠、特斯拉的老板艾隆•马斯克也评论道：“人类没戏了（GG humans）。”

ChatGPT擅长将文字“转换”为文字，因此，它被众多学者和文字工作者追捧。相比于文字对普通公众的影响来讲，Sora带来的冲击更大。其中原因在于，视频受普通公众的关注要大很多，对法院工作、诉源治理带来的影响也更为深远。笔者早期的一项研究显示，截至2016年年底，全国各省每份裁判文书的访问量在8-20次之间。相比较而言，2016年庭审直播网庭审视频播放量平均高达47398次，是裁判文书网访问量的千倍以上。不同群体对不同法律媒介的关注不同：学者、法律人关心裁判文书网，公众似乎更关注庭审直播网。由此带来的问题是，在庭审直播网进行庭审直播，很容易形成几百万人、几千万人在线观看局面，容易引发网络舆情。

从诉源治理角度来看，其本质类似于群众工作，处理的是家长里短、邻里纠纷等琐事。Sora快速生成视频的能力，容易为公众所青睐，也能够为法院工作助力。它可以助力法治宣传，明晰公众权利义务，让人民群众切身“感受”公平正义，提高诉源治理的可触达性，让调解深入社会、深入基层，也可能带来证据造假、隐私侵犯、伦理冲击等一系列问题，降低调解的公正性，提高诉源治理的难度。更为重要的是，与ChatGPT等其他生成式人工智能一样，Sora在诉源治理中的应用，极有可能将依赖于企业对海量数据的搜集、标注和训练，法院系统恐怕很难独立开发和应用，或者从商业上考虑，独立开发成本过高。在法院与企业合作过程中，如何在创新开放的背景下，防范人工智能垄断、甚至人工智能霸权，维护诉源治理系统的数据安全，都需要未雨绸缪、作出妥善应对。

Sora的含义及优势

（一）Sora是什么

Sora是文本到视频的生成模型，可以根据文本指示（prompt）生成相应的视频。所谓文本指示，可以理解为文本提示词，或者以文字形式提出的问题或要求。Sora是美国开放人工智能公司的产品。根据开放人工智能公司的介绍，Sora能够生成复杂场景，包括多个角色、特定运动类型以及主题和背景的准确细节。Sora不仅了解用户在指示（prompt）中的要求，还了解用户要求提及的对象在物理世界中是如何存在的。

以Sora公布的一个测试视频为例，向Sora输入以下文字指示：“一位时尚的女士走在东京的街道上，街道上充满了温暖的霓虹灯和生动的城市标志。她穿着黑色皮夹克、红色长裙和黑色靴子，手里拿着一个黑色钱包。她戴着太阳镜和红色口红。她走路自信而随意。街道潮湿且反光，形成了彩色灯光的镜面效果。许多行人走来走去。”Sora准确地理解了上述文字指示，并生成了长达60秒的视频。该视频展示了文字指示的东京街道、霓虹灯、女士的衣着和配饰，并且女士的动作也非常自然和真实。

此外，在测试视频中，镜头不断变化，时远时近，但女士的形象始终保持一致。这段视频的真实性令人惊叹，仿佛是用摄像机在东京街头拍摄的真实电影片段。根据Sora展示的成果，它的视频创作能力几乎媲美人类。除了在“东京街头的女士”视频以外，Sora还展示了“东京火车车窗上的倒影”“无人机视角下的教堂”，甚至还展示了“海洋动物的自行车比赛”等测试视频，其真实性同样令人惊叹。

当然，这些场景可以在真实场景中进行拍摄，也可以采用电脑特效制作虚拟场景。但是，人类的创作能力受到现实世界的约束。比如，人需要休息，不能一天24小时工作。为了拍摄场景，摄制组需要购买摄影装备，导演组需要组织群众演员。这都需要大量人力、时间和金钱成本。即便采用电影特效，搭建虚拟场景，其背后所需的各项成本也十分高昂。Sora则不同。作为人工智能模型，它不需要休息，不需要摄影器材，不需要组织管理。只需要人类向它输入一段指示，它就可以输出媲美人类创作的视频。Sora“物美价廉”制作视频的能力，无论在科技行业，还是在视频制作行业，都对业内人士造成了巨大冲击！

（二）Sora为什么厉害

在Sora出现以前，市场上已经出现了生成式人工智能产品，能够将文本转换成视频，但是，它们的能力与Sora有明显差距。首先，以往的视频生成式模型对指示的理解能力较弱，可能存在理解错误，进而导致生成视频的错误。其次，以往模型生成的视频真实性不足。形象、动作、镜头变化都明显弱于人类的视频创作水平。观众很容易就可以判断出这些视频是人工智能的 “拙劣”作品。最后，以往模型都只能生成3秒左右的短视频，难以生成较长的视频片段。Sora的优秀表现得益于其领先的技术能力，而技术领先能力则是模型设计能力和工程实现能力综合作用的结果。

1.模型设计能力

从模型设计角度来看，Sora使用了“扩散转换”（Diffusion Transformer）的架构，融合了转换架构（Transformer）和扩散模型（Diffusion）架构的优点。

在ChatGPT这样的大语言模型领域，转换架构被广泛应用。它类似于Sora的“大脑”。可以评估输入视频和信息（文字提示）之间的相关性，能够有效捕捉信息（文字提示）中的上下文关系。这使得Sora可以在视频之间保持高度的一致性。

扩散模型架构是图片和视频生成领域常用的模型架构。扩散模型是Sora的“画笔”，在训练过程中，扩散模型不断学习如何根据条件（condition），也就是描述视频内容的文本，一步一步生成视频和图像。以转换模型为“大脑”，以扩散模型为“画笔”，Sora就有了生成视频的基础架构。

2.工程实现能力

模型设计可能并非Sora成功的关键。事实上，Sora采用的扩散转换模型设计并非完全原创，很大程度上借鉴了威廉•皮布尔斯（William Peebles）和谢赛宁（Saining Xie）于2023年发表的论文。后来，威廉•皮布尔斯加入开放人工智能公司，并参与了Sora的研发。但是，这篇奠定Sora技术基础的论文，在今天来看，它能够生成的成果与Sora有明显差距。它仅仅能生成图片，不能生成视频。而且，它生成的图片也主要是动物、物品，很少有人类图像。也就是说，这篇论文的工作只是从0到1的原理验证，虽然具有开拓性意义，但还没有制造出成熟的技术产品。

让Sora落地的关键是开放人工智能公司强大的工程能力。由于开放人工智能公司没有披露Sora的技术细节，本文只能对此进行大致推测。

首先，开放人工智能公司需要收集大量视频，作为训练人工智能模型（Sora）的数据。例如，以全球最大的视频网站油管（YouTube）为例，每分钟大约会有500小时视频上传到油管公司，那么，油管公司每个月将新增约2200万小时的视频素材。这些海量视频就是训练Sora的潜在数据。

其次，开放人工智能公司需要对视频进行标注，构造文本与视频相对应的训练数据。以开放人工智能公司的文本到图片生成模型为例，第一代的文本到图片生成模型名为Dall-E模型，它是在2.5 亿个“文本—图片”数据上训练而成的。简单说，需要人工（或借助技术手段）对每一个图片进行标注，注明图片对应的文字是什么，如某一图片是星巴克的咖啡杯，还是小轿车，由此建立文本—图片对应的数据集。2.5亿个“文本—图片”数据，就这样一一标注完成，供人工智能模型训练之用。所谓训练，就是“教会”人工智能模型文字与图片的对应方式。业内人士经常对标注这一工作开玩笑，用以说明人工与智能的关系：能够产生多么强大的智能，就需要多少人工加以支持。

最后，训练Sora需要海量存储空间和海量算力。假设每小时视频占据的储存空间为100MB，上面提到的油管每月新增2200万小时视频，这些视频所需要的储存空间大约是2200TB。假设Sora的参数量约为30B ，如果要训练这些视频，本文推测仅仅是硬件成本（使用海量算力需要支付的费用）就大约需要上亿美元！

以我国庭审直播网作为参考，截至2024年2月，庭审直播网总计积累了约2200万场庭审视频，按照平均每场视频1小时计算，我国已经累计了2200万小时的视频，大概相当于油管每个月上传视频的量。如果我们用2200万小时的视频来训练Sora，那么，仅仅是我们需要投入的硬件成本（算力费）也可能高达上亿美元！

Sora的智能性

Sora获得成功，这不仅标志着人工智能技术在视频生成领域的重大进展，也预示着人工智能范式的全面革新。近年来，ChatGPT这样的生成式人工智能得到快速发展，它不仅扩大了人工智能的应用范围、领域和用途，而且，它还极大地改变了传统人工智能的应用方式。Sora出现之后，这种差异进一步得到强化。

（一）传统人工智能：专用性工具

在2023年ChatGPT热潮出现之前，生成式人工智能并非主流应用。在过去的二十年，人工智能的主流应用是监督式学习、无监督式学习以及强化学习等。其中，监督式学习属于最为重要的人工智能应用。

举例而言，语音识别技术已经在司法领域得到广泛应用，它所依赖的即是监督式学习人工智能。具体来讲，部分法院采用语音识别技术，辅助书记员记录庭审过程，制作庭审笔录。要训练语音识别模型，整个过程类似于通过大量的实例，教会人工智能理解人声音频和文字之间的对应关系。因此，首先需要构造数据集，作为训练人工智能模型的基础。在语音识别场景下，数据集包括人声音频，以及对应的文字文本。经过数据集标注和大量训练，人工智能模型就能学会音频和文本之间的关系，或者称之为“知识”。在训练完成后，如果输入一段新的音频，即便人工智能从未“听过”这段音频，它也可以根据学习到的“知识”，将音频转换为文字。

除了语音识别以外，在司法领域，监督式学习人工智能还有很多其他应用场景。例如，美国的康帕斯（Correctional Offender Management Profiling for Alternative Sanctions, COMPAS）系统也是基于监督式学习的人工智能系统，用于评估被告假释后再次犯罪的风险，辅助法官作出是否假释的裁定，允许被告重回社会，而不是将其羁押在看守所或监狱中。为了训练这样的模型，需要梳理历史数据，构造“被告特征—是否再犯”的数据集。

所谓被告特征，指的是被告人的年龄、性别、就业、犯罪史等数据；所谓是否再犯，指的是被告在假释之后是否又重新犯罪。人工智能模型通过学习历史数据，“理解”被告人特征与被告再次犯罪的关联。比如，相对于女性被告，如果男性被告更容易再次犯罪，那么，人工智能模型就会记住“男性—容易再犯”这一关系。在面对新的案件时，也就是出现一个新的被告时，人工智能模型就可以根据被告的各种特征，预测其再犯风险，并进一步辅助法官作出是否允许假释的裁定。

传统人工智能具备突出的优势，也存在明显的弱点。从优势来看，传统人工智能需要的数据量不大，算力成本相对较低，这使得它易于部署、易见成果。例如，前文所述的康帕斯系统仅仅用了大约7000多个被告的数据，就搭建了再犯风险评估系统。对于这样规模的数据量，以及采用这种模型架构的人工智能模型，用户在普通家用电脑上就可以训练和部署。传统人工智能的“小规模”特点，使得它容易被机构训练、部署和使用，容易“见成效”。

从弱点来讲，传统人工智能有较强的专用性，这限制了它的适用范围。从传统人工智能的训练方式可以看出，不同的人工智能模型用来处理不同的任务，需要构造不同的数据集，用不同数据集来训练人工智能模型，供人工智能模型“学习”之用。人工智能模型在一项任务上的处理能力，很难迁移到新的任务上。举例来讲，如果我们需要构建一个识别裁判文书中争议焦点的人工智能模型，那么，我们就需要构建一个裁判文书的数据集，标注出每份裁判文书对应的争议焦点，然后用来训练人工智能模型。但是，如果我们需要一个编写裁判文书摘要的人工智能模型，我们就需要构建一个“裁判文书—摘要”的数据集，并训练一个新的人工智能模型。因此，不同的任务——识别争议焦点或是摘要裁判文书——都需要构建（标注）不同的数据集，并用不同数据集来训练不同的人工智能模型。从这个角度来看，传统人工智能的部署成本不会边际递减：每次部署一个新的人工智能，都需要投入新的成本。想要人工智能应用于新的任务，就需要开发一个新的人工智能模型，而且，往往需要从标注数据、构造数据集这样的“体力活”开始。所以，在传统人工智能时代，人工智能虽然“小而美”，易于开发和部署，但人工智能的扩展和应用面临成本的限制。

（二）生成式人工智能：通用性智能工具

ChatGPT出现之后，这意味着生成式人工智能取得重大进展，一举突破了传统人工智能的范式。生成式人工智能可执行多样化的任务，响应人类的各种指令，具有较强的通用性：同一个模型可以被广泛地用于各种任务。因此，它也被认为是通用人工智能（AGI）的先声。在生成式人工智能时代，想要人工智能辅助处理文字，想要人工智能辅助生成各类视频，就不再需要从头开始训练人工智能，只需要对大语言模型下达简单的指令。例如，如果想要人工智能模型输出裁判文书的摘要，我们只需要将裁判文书输入大语言模型，并且指示它生成摘要，那么，模型就可以输出我们所需要的文书摘要。

不过，生成式人工智能所展现出的通用性，是建立在初期大量投资基础上的。无论是Sora，还是ChatGPT，从原理上看，它们并没有重大突破：它们都是基于统计学习的框架，根据提示词，预测下一个可能出现的单词。但是，大语言模型巨大的工程量，让人工智能“涌现”了惊人的能力。以Meta公司的LlaMa2模型为例，它的参数量最大达到了700亿，模型训练所需要的语料有2万亿个token，而每个token大约相当于1.3个英文单词。如果一个人每天读100万个token，它需要读5000年。因此，大语言模型具备巨大的参数量，需要巨大的训练集，这使得大语言模型的训练成本非常高，尤其是算力成本非常高。比如，LlaMa2模型在图形处理器（GPU）集群上训练了3311616个GPU小时，仅仅是训练的硬件成本（算力费），就大约花费了500万美元。

因此，在生成式人工智能时代，普通机构难以像传统人工智能时代那样独立开发和部署自己的人工智能，通常都需要与外部合作，合作开发某一具体应用。一方面，巨大的前期投入让生成式模型的开发有着很高的门槛，普通机构基本无力开发新模型；另一方面，即便不独立开发，而是使用开源的生成式人工智能模型，其独立部署的成本也非常高，需要的硬件成本非常高。开发和部署Sora的应用场景，包括其在诉源治理中的场景（下文详述），光靠法院自身的投入恐怕很难实现。

（三）传统人工智能和生成式人工智能的融合

生成式人工智能的浪潮才刚刚兴起，未来的人工智能技术将向何处发展，可能还没有明确的答案。从近期来看，传统人工智能与生成式人工智能将各显神通、取长补短、深度融合。

一方面，生成式人工智能可以为传统人工智能的应用提供支撑，为传统人工智能提供数据输入。比如，笔者团队参与设计某一传统人工智能模型，用来辅助判断当事人是否愿意调解。为了提高该模型的效果，团队成员尝试加入了一些新的指标。其中一个指标是当事人在调解过程中的情绪状态，通过对调解录音中当事人说话所反映的情绪加以测量获得。如果按照传统人工智能的研究路径，我们需要人工构建当事人的调解通话音频特征（如音调高低、语速快慢）和情绪（如说话慢意味着冷静）之间的数据集。但是，团队成员采用了生成式人工智能模型，将当事人的通话记录输入了大语言模型，大语言模型很快就作出判断，确定了当事人的情绪状态（高兴、沮丧等）。团队成员再将情绪状态结果输入传统人工智能模型，通过新增这一参数或指标，传统人工智能模型判断当事人调解意愿的能力得到了显著提高。

另一方面，反过来看，生成式人工智能也可以整合传统人工智能的应用，将传统人工智能的输出结果纳入生成式人工智能的指示中，进一步扩展生成式人工的应用场景。例如，将康帕斯系统（传统人工智能）输出的结果（即是否假释被告人）输入生成式人工智能模型中，生成式人工智能再结合法官的最终裁定结果（即是否假释被告人）就可以自动生成裁定书。同样道理，借助Sora等视频生成式人工智能模型，则可以生成相应的视频档案，以供存档或接受公众监督。

Sora在诉源治理中的潜在应用

不论是传统式人工智能，还是生成式人工智能，它们在诉源治理中都存在广泛的应用空间。在诉源治理的部分环节，它们甚至已经崭露头角，开始发挥意想不到的作用。Sora作为生成式人工智能，其潜在应用场景也很多，主要集中在视频对诉源治理效果明显的领域，如法治宣传、辅助立案、证据展示等环节。从长期来看，Sora与虚拟现实（元宇宙）技术的结合，还可能创造逼真的虚拟调解场景，提高诉源治理的效果。

（一）辅助立案

在立案环节使用生成式人工智能，其实质就是利用法院已经积累的历史经验数据，对生成式人工智能模型（如ChatGPT或Sora）进行训练，提高立案的准确性和效率。

不同案由的名称分类，案由名称与起诉书中事实描述的匹配，不同案由下案件所需证据材料类别及内容等信息，这些都是法院已经形成的历史数据。利用这些数据，对生成式人工智能模型进行训练，模型训练完毕之后，如果当事人到法院立案大厅陈述其案情，经过训练的模型能够很快将当事人的表述转化为“指示”（问题），并由模型生成并输出相应的答案，即案件应该归为哪个案由、当事人诉求是什么、所需证据材料有哪些、案件的审判要素如何……

随着审判工作现代化的推进，在不少法院，案卷材料，包括起诉书、答辩状、书证、物证等，都已经实现了电子化，以PDF文档形式存储在法院服务器中。借助光学字符识别（Optical Character Recognition，OCR）等技术，立案庭法官已经能够对电子化文件进行检索、查询和计算。在这种背景下，利用这些已经电子化存储的案卷数据，对大语言模型进行训练。在完成模型训练之后，当事人来法院立案，根据当事人的表述，大语言模型可以很快作出反馈：该纠纷属于什么案由下的纠纷、当事人诉求是什么、当事人是否适格、应该先调解还是直接立案审理……

相较于ChatGPT，Sora的作用在于，可以把某些立案材料，比如原告对案件过程的描述（如交通事故的发生过程），快速转换为视频，作为立案辅助材料一并提交给法院立案庭法官审核。或者立案庭法官借助嵌入在法院立案管理系统中的Sora，将复杂文本信息快速转换为视频形式，基于视频作进一步审查，以帮助其更快、更好理解案情，快速立案、分案或采取其他措施。甚至，当Sora更加成熟以后，法院立案系统根据案件情况，自动生成视频以辅助判断。

在立案环节，Sora的辅助作用看起来很简单，甚至有点多余：既然有了文字版起诉状，为什么还需要视频版的起诉状和证据材料？但是，想想抖音为什么能很快风靡全世界，以及它对其他行业和场景的冲击与赋能，Sora通过视频提升立案效率和效果的作用就很难小觑。比如，现在电商平台在商品展示过程中，除了原来的文字、图片介绍之外，几乎同时伴随着短视频甚至VR（虚拟现实）视频展示，买家可以非常真切地感受衣服的质地、大小，房间的尺度和径深等信息。

从诉源治理角度来看，Sora的立案辅助作用可能会更加突出。其中的道理很简单，进入人民调解、行业调解、基层调解等各类调解组织的纠纷，相当一部分是“家长里短”“鸡毛蒜皮”之类的纠纷。对于这类纠纷，根据当事人的表述，将其转换成视频作为辅助立案材料，极有可能比文字材料更生动，也更容易被各类调解组织的立案人员所理解。将核心证据材料以视频形式呈现，比如交通事故现场以视频呈现，能够很快帮助立案人员感受纠纷的具体场景、理解纠纷的具体特点。而后者根据纠纷特点，从法院在线调解平台的“全网”范围内，寻找、推送和匹配最适合解决该类纠纷的其他调解组织、调解人员和调解资源，这是Sora方便人民群众、助力诉源治理现代化的一个例子。

（二）促调和调解

1.促调

从国外研究来看，向当事人推送类案判决信息，帮助当事人了解法院在类案中的立场，以此促进当事人达成和解或调解协议，这在墨西哥法院劳动争议调解中取得了一定成效。在我国，利用人工智能技术，促进当事人调解，目前的应用还不多。在部分法院中，立案大厅提示当事人诉讼风险，立案设备中具象化地展示败诉风险；在部分社会调解组织中，计算机系统向当事人发送短信，告知诉讼风险，促进当事人选择调解。类似这样的做法还有不少，国外类似措施促进当事人选择调解或和解的研究也不少。不过，这类做法虽然很多，但都属于非智能化的促调措施。从促调角度来看，各类人工智能都存在实际和潜在的应用场景。在某些需要形象展示的案件中，Sora的促调作用可能会非常明显。

比如，根据当事人的个人特征，如性别、年龄、教育背景等，以及调解案件的案件特征，如借贷纠纷中的金额、期限、利率等信息，传统人工智能模型可以做一些简单预测。比如，什么性别的人、欠钱期限多长的案件，系统（或调解员）对这类人和案件采用哪种话术，将更有利于解决纠纷？是采用“风险型”话术更好，如告诉当事人再不还钱就申请强制执行，还是采用“激励型”话术更好，如告诉当事人一次性还款可以减免多少本金和利息。根据传统人工智能模型的预测，人民法院、各类调解组织都可以通过在线调解平台，向当事人推送不同话术的短信信息，通过话术与技术的结合，促进纠纷通过非诉讼方式解决。

利用生成式人工智能进行促调，其实质在于，系统可以更加智能地向当事人推送促调信息，而且推送促调信息的内容更加丰富、形象更加立体。比如，传统人工智能通常只能推送单一信息，如类案的判决结果信息（谁赢谁输），或者多个类案的综合胜诉率信息（原告胜诉率多少）。基于ChatGPT这样的生成式人工智能模型，在线调解平台可以获取多种类信息，并将该组信息全部向当事人推送，如同时推送类案中原告胜诉率、被告一次性还款还是分期还款比例、被告一次性还款额的金额（相对于本金是否打折、是否减免利息）等，以帮助当事人获得更加全面系统的信息，促成双方达成调解。

如果将Sora应用到促调环节，由于视频的形象性、真实性，也许还能取得意想不到的促调效果。比如，向当事人短信推送“风险型话术”时，短信内容是文字。不管如何用文字渲染某种风险，如不还钱就要进监狱，当事人的印象一定不够深刻。但是，如果Sora将文字（如找到类案中的判决、证据的特定信息）转化为图像、视频，然后再推送给当事人，那么，无论是“风险型”还是“激励型”话术，促调信息所具备的画面感（如蹲在监狱里的犯人）、立体感（如监狱的高墙铁窗）和真实感（如具体的辖区监狱），都将极大增强促调信息对当事人的作用效果，促进双方通过调解解决纠纷。

2.调解

同样道理，由于视频带来的逼真感，生成式人工智能尤其是Sora这样可以生成视频的人工智能模型，可以大大提高调解过程的可视化程度，甚至在借助虚拟现实技术（元宇宙）的基础上，创造沉浸式的真实调解场景。

例如，在调解过程中，根据目击者的描述，Sora将其生成事故现场的视频，模拟事件发生的过程，帮助调解员和当事人理解案件的细节，类似于电商平台中VR（虚拟现实）商品展示的效果。又如，当受害者无法到场，Sora制作生成虚拟受害者，让受害者讲述自己的遭遇，减轻受害者出庭作证的心理压力和再次伤害。再如，借助生成式人工智能模型，甚至可以创造出虚拟的智能调解员，虚拟调解员不仅能像现在的语音机器人一样与当事人进行简单执行预定流程的对话，还可以在大语言模型的加持下，与当事人进行复杂的沟通。Sora甚至可以生成视频版的虚拟调解员，以特定视频形象与当事人进行复杂的语音沟通。

在最为高级的阶段，借助虚拟现实技术，调解员利用Sora创造反映自己偏好的虚拟调解室，创造自己希望展示的虚拟调解员形象，当事人也借助Sora创造自己希望展示的虚拟形象，并由各自虚拟形象在虚拟调解室进行对话、调解，从而创造出沉浸式的真实调解场景。换句话讲，调解员、当事人可能各自呆在自己家里，穿着睡袍拖鞋，躺在沙发上，通过各自账号进入虚拟调解室，线上展开对话和调解，而各自在虚拟调解室的形象或者西服革履一脸严肃，或者中式长袍风度翩翩，俨然一副正经对话模样。

（三）调解宣传与管理

在立案环节，Sora帮助当事人便捷立案，帮助法院、调解组织高效收案、分案和匹配调解资源。这其实已经涉及Sora在调解宣传和管理中的潜在应用。

从调解宣传角度来讲，例如，一个新的法律法规、司法解释和指导案例出台之后，借助Sora将文字转为视频的能力，法院可以很快制作普法宣传视频，提高公众法律意识、降低法律服务门槛。又如，针对特定法律、司法解释中公民权利义务的内容，由Sora将其转换为宣传视频，快速讲解和宣传公民的特定权利义务，这也是Sora的一个潜在应用场景。

同样道理，针对人民调解、行业调解、社会调解以及法院调解中出现的典型案例，基于文字版本的调解笔录、调解协议，Sora很快生成宣传视频，或者根据已经生成视频的调解笔录、调解过程录像，甚至虚拟调解室的视频，针对案件的重点要素，Sora生成相关视频，这也是Sora在调解宣传中的潜在应用。

从调解管理角度来讲，未来随着法院在线调解平台的拓展，尤其是在线调解平台进一步向社会的扩展、向行业的扩展、向基层的扩展，法院在线调解平台的案件不仅包括法院处理的调解案件，还包括各类调解组织处理的调解案件，那么利用生成式人工智能，实现对诉源治理的动态态势感知，辅助法院进行诉源治理决策，这也将是包括Sora在内的生成式人工智能的潜在应用场景。

换句话讲，从事诉源治理管理工作的法院工作人员，只要会问问题、会给出提示语，那么，在线调解系统就能进行智能化回应，甚至反馈出优化工作的建议。例如，基层法院院长登录在线调解平台上，口头提问“本月本辖区物业管理纠纷的数量、分布、特点和难点”，植入了生成式人工智能的平台就会自动给出相应答案。如果平台有了Sora的加持，平台给出的答案不仅仅包括文字版本的答案，还可以是一个短视频答案，让提问人在很短时间内、非常形象地感知到诉源治理的态势，并获得相应的对策建议。

Sora对诉源治理带来的挑战与应对

在诉源治理中，Sora具备上述潜在应用，这带有很大的想象成分。各种应用能否实现，实现程度如何，什么时候能够实现，这都带有很大的不确定性。因此，我们不能过于高估Sora带来的风险和挑战。但是，随着人工智能的加速发展以及Sora这种视频生成模型与社会公众偏好的不断契合，关于Sora对诉源治理带来的风险和挑战，我们也需要有足够的心理准备，做好应对预案。

（一）对公正调解的挑战和应对

Sora能够提高立案效率、提升证据的可视性（视频证据）、保护证人的隐私（虚拟证人）、提高虚拟调解的真实性，这都依赖于视频媒介更高的传播效力和影响力，也依赖于视频能够高度反映真实世界的能力。但是，当视频世界与真实世界高度融合，观众无法区分想象世界（视频世界）与真实世界的时候，Sora就会给调解的公正性带来一系列挑战。

例如，高度逼真的视频制作能力可能被滥用，被当事人用来制造误导性或虚假的证据，从而对调解过程造成干扰。如果Sora门槛太低，什么人都能用（未来的可能性非常大），就像每个人都能熟练操作“剪映”App，制作抖音短视频一样，那么，当事人低成本制作高逼真视频证据，这就可能会影响调解的公正性。

同样地，未经授权制作涉及特定个人或事件的视频可能侵犯隐私权，特别是在未经当事人同意的情况下。之前社会中热议的视频换脸技术，几乎真假难辨，就是视频技术侵犯当事人隐私，甚至构成犯罪的典型场景。即便没有构成犯罪或者侵权，如果在不恰当的情景下使用他人形象，在高度逼真的情境中，这也可能会模糊法律与伦理之间的界线，从而为诉源治理带来新问题。

不过，给司法工作带来挑战的技术，Sora肯定不是第一个，而且一定也不是最后一个。技术发展带来的问题，其解决往往依赖于技术的进一步发展。比如，1965年，当美国最高法院判决认定庭审直播干扰公正审判的时候，当时的庭审直播需要庞大、笨重的机器，需要法庭中的各种布线，需要大量的灯光照明，需要摄像师的手工操作。毫无疑问，对法官和诉讼参与人而言，这样兴师动众的直播是非常显著和强烈的干扰。

但是，五十多年后的今天，尤其是在中国进行庭审直播的时候，除了固定在法庭墙体上的几乎看不见的摄像头以外，法官和当事人几乎感受不到直播的存在。即便反对庭审直播的部分中国学者，也很少采用1965年美国最高法院的逻辑，因为时代已经发生了巨大的变化。因此，1965年的时候，作为新技术的电视直播出现，它给美国法官公正判案带来了巨大干扰，遭到美国大法官的抵制。21世纪的今天，高科技摄像头的出现、直播媒体技术的发展、网速的提高、手机的普及等，这一切都大大降低了法官、公众对直播干扰审判的焦虑。

同样的道理，Sora具备生成逼真视频的能力，这一定会给审判、调解工作带来挑战和干扰，给诉源治理带来新的问题，但是，也一定会随着视频识别技术的发展而得到逐步解决。甚至当视频制作和识别门槛降低，当Sora成为人们日常生活中的一部分，我们想象中的虚假证据、隐私权和伦理道德问题，也许都将不复存在。法律规则的作用，更多地在于“识别”和“等待”：当技术发展尚不足以解决技术问题的时候，法律规则应该禁止或限制技术的应用；而当技术发展足以解决技术带来的挑战的时候，法律规则应该拥抱技术的应用，或者至少不阻碍技术的应用，让公众逐渐适应技术带来的变化，直到技术成为普通人日常生活的一部分。

（二）对诉源治理信息化的挑战和应对

尽管生成式人工智能在诉源治理中的潜在应用广泛，但是，从目前各地实践来看，这仍然处在探索阶段。其中原因很多。生成式人工智能需要大量数据、大量存储空间和大量算力，其特长和优势才能得到发挥。具备生成视频能力的Sora，其数据维度更丰富，包含声音、文字、图片和时间等若干维度数据，需要的存储空间和算力更大。即便动用整个法院系统的资源，可能也很难支持独立开发相关模型和应用，或者从商业上考量，需要投入的成本太高，并不值得单独开发模型和应用。此外，法律人偏好文字，喜欢深度阅读，对声音、图片/视频的需求相对不高，这也会影响Sora在司法领域的应用。

但是，从某种程度来讲，诉源治理工作偏重群众工作，涉及家长里短琐事，当事人对音频、视频、图片的需求相对更高，对信息传播的效率和速度更加看重。以Sora为代表的生成式人工智能技术，极有可能被公众快速接受和使用，类似于抖音短视频在几年内风靡全世界一样，将新技术带入法庭、带入调解，从而可能形成法院被动应对、被动投入和被动建设的局面。

为了应对这一挑战，法院信息化建设需要进一步强化互联互通，为未来技术发展预留空间。同时，法院系统还需要做好技术服务外包工作，防范数据安全、供应商安全等一系列问题。

比如，正在推进的法院“一张网”的建设，目的在于形成全国统一的审判管理系统，便于全国范围内法院审判数据的互联互通。从诉源治理角度来看，“一张网”建设不仅要实现审判管理系统的互联互通，也要实现与在线调解平台系统的互联互通。或者说，不论是法院立案庭法官，还是审判庭法官，在他们使用的审判管理系统中，都需要预留相关调解功能的端口。这样，法官在其审判管理系统上，既能将不适合审判的案件分发到在线调解平台上，并通过平台对接平台调解资源，也能将无法调解、不适合调解的案件收回，让其重新进入审判环节，实现动态的诉调结合。

同时，“一张网”与在线调解平台的互联互通，这不仅意味着上面所说的两个平台、两个系统的端口对接，也意味着两个平台和系统底层数据的互联。只有这样，上文所述的生成式人工智能的各种应用，尤其是诉源治理的智能式管理、动态态势感知才能真正实现。

另外，考虑到Sora等生成式人工智能大数据、大存储、大算力的特点，法院极有可能需要依赖外部第三方，与其开展合作来开发Sora在诉源治理场景中的应用。在这种情况下，用好外包服务商，管好外包服务商，就成为诉源治理工作的重要内容。比如，法院向外包服务商提供海量诉讼和调解卷宗数据，用于培训Sora等生成式人工智能模型，法院向外包服务商传输新审判案件、新调解案件的立案信息、证据信息，数据从内网传输到外网，那么，外包服务商必须能够保证在外网处理数据的隐私性、安全性。

又如，Sora等生成式人工智能模型都是开源模型，通常不存在传统意义的模型所有权问题。但是，法院与外包服务商合作，用法院数据训练的某一人工智能模型，法院是否应该主张所有权或类似权利，以此确保自己在模型不断升级、成本不断提高的过程中，还能够在有限投入的基础上，确保不被外包服务商“卡脖子”？应对大模型背景下，院企合作、技术升级和服务外包的挑战，法院需要有完善的数据外送、服务外包的制度加以保障。

（三）对诉源治理管理体系的挑战与应对

在没有生成式人工智能的介入下，从法院角度来看，诉源治理的内外关系已经发生了显著的变化。从外部关系来看，在党委领导诉源治理的制度安排下，法院需要走出去，与人民调解组织对接，与行业调解组织对接，与社会调解组织对接，由此扩大审判组织的传统边界。从内部关系来看，在多元解纷、诉调对接、一站式治理等理念之下，法院立案庭的职能得到了大幅强化。各地法院的诉服大厅非常大气现代，这就是法院内部关系调整的表现。

在未来生成式人工智能的加持下，尤其是Sora视频生成技术的加持下，上述法院内外边界的调整将更加明显。比如，目前除了连接全国各地法院的立案调解系统之外，在线调解平台已经将大量社会调解组织、行业调解组织、基层调解组织纳入平台。诉调对接、一站式多元解纷等理念，已经不再是某个县区法院诉服大厅入住几个行业调解组织，或者法院立案庭长定期到人民调解委员会开个诉源治理协调工作会这么简单了。在在线调解平台大力拓展的背景下，深圳市南山区的某个知产纠纷，有可能被平台推介给长春某位能说会侃的东北大叔进行调解，从而实现法院引导下的、调解资源的全国性对接、调配和优化。

当生成式人工智能更加智能，Sora视频能力更加强大，而在线调解平台更加便捷与智能的时候，法院与其他调解组织的关系将呈现更为复杂的局面。比如，上文提到的虚假证据、视频隐私、伦理道德等问题，将会随着在线平台的拓展，加大某一法院协调其与（全国）其他调解组织、调解员、调解案件关系的难度。深圳市南山区法院不仅需要与东北大叔调解员进行线上协调，还可能需要在线处理许多之前没有碰到的事件与问题。此外，由于技术外包服务的存在，如何处理法院与外包服务商的关系，如何处理内网与外网、法院数据与外部（加工后）的数据、开源模型与训练后模型等一系列技术性问题，这也是诉源治理管理体系的一个挑战。

结语

发展生产力需要与其相适应的生产关系。诉源治理技术手段的进步，也需要与其相适应的管理机制的变革。从这个意义上来讲，法院诉源治理管理工作体系已经面临着深刻变化的需求。生成式人工智能的发展，尤其是Sora视频生成技术的发展，正在成为法院诉源治理管理体系变革的催化剂。如何变革、什么时候变革以及变革的幅度多大，这当然依赖于生成式人工智能技术发展的速度以及它在法院诉源治理工作中的应用速度。从当前这两个因素的发展状况来看，法院内部设立“诉源治理办”，统筹处理法院与外部调解组织关系、法院内部立案庭与其他庭室关系以及法院与服务外包商关系，这一措施的急迫性可能还不高。但是，随着包括Sora在内的生成式人工智能在法院诉源治理工作中的渗透，内部管理体系的变革、管理规则的完善和管理机构的组建，都将不可避免地被列入日程。

原文刊载于《中国应用法学》2024年第2期，感谢微信公众号“中国应用法学”授权转载！

文档下载唐应茂｜生成式人工智能助力审判工作现代化