上海交通大学中国法与社会研究院

2022年07月26日【作者】申卫星刘云预览：

【作者】申卫星刘云

【内容提要】

*申卫星

清华大学法学院教授

*刘云

清华大学智库中心助理研究员

摘要：可计算的法律发展道路是以计算机作为工具的背景下,对法律的运行机制进行符号化抽象并设计可以自动执行的法律智能系统,以此来推动法律的发展。在法律发展路径上,需要理解计算范式转型是一种普遍趋势,法律本身具有很强的可计算性,可计算法律的发展过程具有阶段性;可计算法律的实现方法主要有三大类,包括规则推理建模、数据推理建模和规则+数据融合推理建模。为了实现可计算的法律发展道路,法学研究需要开展可复用的法律知识工程,构建可高效处理的法律数据集,法学教育需要培养具有计算思维的法律人才。

法律的发展有赖于司法案例的积累，有赖于学说的总结与提升，有赖于在案例和学说推动下促进立法的科学化。霍姆斯在第二次工业革命时期提出，法律研究主要是在阅读大量案例、法条和相关文献以将法律概括、简化为一个体系，最终目的则是为了准确预测今后的法律行为方式。信息时代的到来，需要站在新的历史起点来审视未来法律的发展道路。我们探索的可计算法律研究内容包括利用计算方法开展法律大数据分析，以及结合计算技术研究法律科技，是计算法学中的两大研究方向。可计算理论始于丘奇图灵论题，其确立了“可计算性”的数学含义，即凡是可计算的函数都是一般递归函数，图灵机则是实现递归函数的方式。所谓的递归就是将一个待求解的问题一步步地转化为一个已知信息基础上的有限计算过程，可计算理论可以泛化解释为人类将未知问题转化为可知信息的过程。在计算机全面普及应用的时代，计算主要是指通过设计一定的方法并将其编写为可执行的程序，使计算机对数据进行处理，从而得到目标结果；可计算法律是指那些能够按照抽象符号对问题进行表示，通过计算规则（算法）可在有限的步骤内得到目标结果，其计算过程也是可记录的法律任务。当前可计算法律的主要表现形式是可以通过计算机运行而自动化求解，运用自动化工具不仅仅可减少人工劳动力消耗，同时有利于促进法律的公平公正实施和理解，也是古老的法律应对社会全面数字化变革所必须启动的匹配性转型。以下将从认识论、方法论和实践论三个维度来探索可计算法律的发展道路需要确定哪些法律任务具有可计算性，可计算法律的实现路径有哪些，以及为了扩大法律可计算范围需要做出哪些努力。

Part.1

可计算法律发展的认识论

（一）计算范式转型是一种新趋势

在大数据繁荣发展的当前时期，计算范式转型蕴含了数据、理论、算法的融合，增加了学科之间的对话和结合，体现了在大数据的基础上探索方法融合的可能性。在计算范式转型的趋势之下，出现了一批计算法学、计算社会科学、计算经济学、计算物理学、计算数学、计算化学等等以“计算+X”为名的研究方向。计算范式之所以成为一种新趋势，主要源于可计算能力和数据应用价值都得到了提升。在可计算能力方面，计算在社会变革中日益发挥着重要作用，我们可以利用计算分析工具帮助诊断社会问题，通过计算程序建立的网络社会可以塑造人们理解社会问题的方式，计算技术的可计算领域和限度有助于技术和社会的辩证反馈，计算技术的应用可以使得一些长期存在的社会问题重新凸显。这种计算能力的发展正在不断地创新我们理解社会的方式。在数据应用价值方面，海量的数据及其处理能力使得我们能够以前所未有的通用性、实用性和可控性均衡来研究更广泛的问题：平行理论中的数字社会与现实社会发生重叠，越来越多的行为可通过各种灵活的方式用电子数据来记录，数据的获取便利度让变量的控制不再具有侵入性，数据的迭代收集和利用可以提高预测能力。在数据广泛应用之下，甚至出现了大数据导致“理论死亡”的超前假设，其实质是丰富的数据在我们的认知中产生了决定性作用，从而为计算范式发展创造新的机遇。

计算范式转型中出现了社会计算（Social Computing）和计算社会科学（Computational Social Science）两个方向，其各有侧重并相互促进。社会计算也被称之为社会软件（Social Software），是以信息技术为目标来研究社会问题。目前，中国人工智能学会就专门成立了社会计算与社会智能专业委员会，其旨在以人工智能、大数据等信息技术为科学工具，构建“社会计算试验场，剖析社会计算与社会智能的内在机制，实现对新型社会现象的发现与机理揭示”。社会计算的研究目标是通过开发计算系统来支持各类社会活动，其实例包括辅助通信的即时通讯软件，协助开展知识编辑的百科词条，支持法官办案的智慧法院系统，提供收益预测的智能投顾系统……由此可知，社会计算的本质是软件工程和算法研发为代表的计算机科学。狭义的计算社会科学也被称之为量化分析，以解决社会科学问题为目标而借用了计算工具。人类各样的行为在数字化时代都留下了记录，这些数据中蕴含的关于个人和群体行为的规律足以改变我们对个人生活、组织机构乃至整个社会的认知，计算社会科学研究则可以从这些海量的数据中挖掘人类和社会运行中的规律。计算社会科学本质上是协作研究：社会科学家为相关研究问题、数据源和获取方法提供重要背景和洞察力，而计算科学家则在开发数学模型和计算工具方面贡献专业知识。计算范式转型同时促进了法学等社会科学与计算科学的双向赋能，两大领域的目标不同而分别选用了社会计算和计算社会科学的名称，这也符合融合与分工相协调的基本逻辑。

（二）法律具有很强的可计算性

法律适用是一个以事实为依据、以法律为准绳的推理过程，代码（Code）一词源于拉丁语“Codex”，其含义就是“规则体系”（a system of laws），法律的种种可计算特性在历史上演化出了 “法律公理体系之梦”。受到欧洲理性主义哲学传统的影响，计算科学二进制的发明人莱布尼茨把理论的真理性论证归结于一种计算的结果，认为：当问题和法律都被正确理解时，所有法律问题都有唯一的正确答案。莱布尼茨及其之后的实证主义相信，法学乃是一门科学，它自在于其理由与体系之中，而非陷身于杂乱无序的价值泥潭。19世纪的德国形成了法律公理体系之梦，众多一流的法学家致力于探索法律内部存在的某种前后和谐贯通的体系，希望将法律体系的各个原则、规则和概念厘定清晰，像“门捷列夫化学元素表”一样精确、直观，法官按图索骥，就能够确定每个法律原则、规则、概念的位序、构成元素、分量以及计算方法。从原理而言，法律是以规则的方式对社会秩序进行描述，计算则是以计算机语言的方式对社会机制予以复现，客观的描述、统一的规则、严密的逻辑、准确的结果是法律和计算运行机制的共同特征，探索最有效的代码任务就如同寻找最公平的法律规则。自20世纪50年代以来，在人工智能的第一次、第二次和当前第三次的热潮中，法律科技理论和技术产品都分别取得了长足进步，这反映出法律的可计算性理论借助计算机技术的发展展现出很强的适用性。

尽管传统的大陆法系和英美法系存在推理逻辑差异，但是这两种推理逻辑都具有很强的可计算性，而且其方法已经呈现出深度融合的趋势。在大陆法系中，法律适用的逻辑模式主要是三段论，即完整的法律规范构成大前提，具体的案件事实是小前提，结论是根据法律规范给予案件事实的后果。拉伦茨把这些逻辑语式称为“确定法效果的三段论法”。在其中，一个完全的法条构成大前提，将某具体的案件事实视为一个“事例”，而将之归属法条构成要件之下的过程，则是小前提。结论则意指：对此案件事实应赋予该法条所规定的法效果。上述法律推理属于一种演绎逻辑，与决策树算法具有很强的同理性，这也是规则驱动的人工智能逻辑基础（第一代人工智能）。在英美法系中，法律适用的逻辑模式是基于过往案例（先例）的推理。霍姆斯提出：“法律的生命不在于逻辑，而在于经验。对时代需要的感知，流行的道德和政治理论，对公共政策的直觉，不管你承认与否，甚至法官和他的同胞所共有的偏见对人们决定是否遵守规则所起的作用都远远大于三段论。法律包含了一个民族许多世纪的发展历史。它不能被当作由公理和推论组成的数学书。”需要说明的是，霍姆斯并非反对法律的逻辑性，而是认为在逻辑之外还有一些经验中潜在的相关性需要得到重视，这种法律推理属于一种归纳逻辑，与机器学习算法具有很强的相通性，也即数据驱动的人工智能逻辑基础（第二代人工智能）。在霍姆斯生活的年代，这种经验归纳只能依靠法律人经年累月的积累和个性化的总结；在计算科学技术繁荣发展的今天，大量的经验都被数字化记录，借助机器学习算法来归纳/预测这种过往案件/同类案件的经验已经成为一个日益成熟的技术，这导致大数据基础上人们对法律进行的归纳认知必将走向法律计算化的发展道路。

（三）可计算法律的发展过程具有阶段性

从法律科技的发展条件来看，法律任务是否具有可计算性不仅取决于问题本身，同时也会直接或者间接地受到计算环境的限制。根据系统工程设计理论，在设计一个可计算系统时，我们需要设定目标、必要条件、效用函数、约束、资源成本分配、设计树，然而，在初试阶段我们并不真正地知道目标是什么，必要条件及其权重在持续变化，效用函数无法以增量方式求值，约束在持续变化，需求很容易出现膨胀或者蠕变，设计树往往是一边设计一边探索……这种设计上存在的困境在法律人工智能系统中也比比皆是。与此同时，现代的计算科学将抽象（abstraction）和自动化（automation）作为计算方法的本质，并将计算机程序设计、系统论、模型化等计算机科学领域或者非计算机科学领域的应用理论都纳入到了计算框架中。在这个计算框架下，可计算法律至少需要具备四个特征：其一，可以进行符号化表达，这要求可计算的法律内容能够用计算语言进行客观记录而不能是一种“只可意会不可言传”的主观认识。其二，具有确定的答案，这决定了那些尚处于争议之中的法律概念、法律规则、法律程序、法律价值无法纳入可计算任务之中。其三，能够在可负担的步骤内得解，这决定了可计算的法律任务在模型构建、数据处理、目标设计等内容必须控制在当前阶段可操作的范围之内。其四，算法的能力决定了计算结果，这导致各类基于规则的算法、基于数据的算法等所存在的优势和劣势必然地会传导给可计算的法律模型，可计算法律的模型效果也据此与计算科学的发展水平密切相关。

从人工智能原理的角度而言，抽象和形式化的任务对人类而言是最困难的脑力任务之一，对计算机而言却属于最容易的。然而，人工智能的真正挑战在于解决那些对人来说很容易执行但很难形式化描述的任务，如识别人们所说的话或图像中的脸。我们需要以阶段性的认识观来理解，螺旋式上升的方式探索可计算法律的适用范围、解决方法和应用效果。从计算科学发展史来看，复杂计算科学在不断地探索新的计算方法：很多在过去不可计算的问题在今天可以通过计算机得到满意的处理，很多在今天难以处理的随机性、复杂性、抽象性仅仅是我们还有尚未发现的数据和算法。所谓的“不可计算”只是证明我们还没为这个系统建立完整的模型，在计算理论上只有当前算力、算法、数据尚无法承担的计算任务，并没有理论上不可计算的绝对任务。史蒂芬·沃尔夫勒姆甚至提出，任何看起来比较复杂的社会运作系统，他们的复杂度都是相同的，而且都达到了复杂性的极限，因为他们都可以从最简单的元胞自动机演化形成，这种元胞自动机是一个根据特定规则演化的离散系统并且可以被我们所认识和实现。在法律工作数字化转型的未来，我们需要不断探索可计算的法律道路，更多、更好地实现数字化、标准化、自动化的法治目标，从而提高法治的可及性和透明度。

Part.2

可计算法律发展的方法论

可计算法律的方法论是法学方法论在计算机环境下的应用，其目标都是找到一个解决法律问题的正确道路。在法学方法论中，拉伦茨、阿列克西、恩吉施、考夫曼、麦考密克等法学家提出了各自的法律方法论体系，对于法律人如何识别、解释和解决法律问题做了深入的思考，对案件事实的形成、法律适用的解释、法律漏洞填补等问题分别提出了解决思路，将法律逻辑、法律语言、法律解释、法律修辞等作为其科学体系的组成部分。在计算机环境下，法律逻辑学的研究成果对于可计算法律模型构建具有重要的启示意义，传统的命题逻辑、谓词逻辑、类逻辑、关系逻辑、模态逻辑、道义逻辑（规范逻辑）和晚近发展起来的模糊逻辑、对话逻辑、可废止逻辑（非形式逻辑）都可以直接支持法律智能化系统的开发。从目前法律人工智能的发展来说，我们可以把可计算法律的构建方法划分为规则推理、数据推理以及规则+数据融合推理三种模式。

（一）规则推理建模路径

目前构建可计算法律系统最实用的方法是基于形式逻辑，也即规则驱动（Rule Driven）的法律人工智能。在现代国家的法律体系中，立法者都希望将宽泛的行动原则具体化为相对稳定、明确、细致和可以客观地加以理解的规则形式，并提供一个应用于人际间的可信赖的和可接受的程序，以使得这些规则付诸实施。因此，在“法治”观念下强调尊重法律合理性的现代法律模式内，适用规则的逻辑就成为法律的核心逻辑，规则驱动的演绎推理也就成为最广泛应用的计算方法。这种规则驱动的计算方法可以公式化地表达为“R+F=C”（规则+事实=结论），也可以理解为只要F所表示的情形发生，那么与之相关的C必然会发生。其中的规则是假设的规范性命题，它确保一旦确定了特定的情势（有效事实），那么相应的特定结果就必然或者应当得到执行。由于法律规则可以逻辑地表达，计算机可以演绎推理，因此用计算机建构成文法推理模型在理论上是容易实现的。人们只需将事实情况输入计算机程序，程序识别相关规则，决定规则的条件是否得到满足，并根据适用或者不适用的规则解释答案。其主要方法可以归纳为两个基本步骤：第一，将事实和法律规则分别表示为形式逻辑中的符号；第二，构建相关符号之间的计算模型以自动推理得到法律结果。这种规则驱动的可计算方法还有一些独特的优势，如透明度高、可解释性强、实用性佳，这成为落地应用的法律人工智能系统所广泛采用的一种方法。

规则驱动的可计算方法是对成熟规则的模拟和建构，其重点在于制定可计算的规则、识别可以予以涵摄的法律事实，其中规则本身的明确性往往成为决定系统效果的关键。例如，道路交通法规则的可计算性很强，有力地支撑了电子交通警察成为一个广泛普及的可计算法律模型。此外，由于立法技术的时代局限性，许多法律条文是具有解释空间的模糊规则，这导致规则在适用过程中也经常不能够实现自身的实际功效。基于此，对于规则的解释、分类、相关性等问题，都是规则驱动的法律推理模型中需要解决的问题。对于规则的类型，哈特提出了“两级规则”的理论，认为我们通常看到的法条都属于第一级规则（主要规则），而第二级规则（次要规则）包括承认规则、改变规则、审判规则三种。根据次要规则，人们可以引进新的主要规则，或修改、取消原有的主要规则，或决定主要规则的范围或控制其实施。规则驱动的可计算模型在目前大部分是应用主要规则，次要规则的使用是今后需要重点突破的内容。为了解决两级规则的问题，麦考密克提出了二次证明的法律推理模式，这种二次证明是为了辅助规则的适用而做的条件证明工作，有利于缓解法律计算的复杂性。不过，二次证明的数量可能也是多项任务，那么就会增强规则驱动计算模型的开发成本和难度。从可计算法律的发展阶段性来看，规则驱动的可计算方法在简单案件和复杂案件的阶段性任务中具有良好的发展空间。例如，我国司法机关近年来大力推动案件繁简分流工作，在这类案件中可以支持当事人表格化地填写诉讼请求和依据，法官也可以要素式地进行审判并通过智能审判辅助系统而自动化地生成裁判文书。

（二）数据推理建模路径

数据驱动（Data-Driven）的可计算方法是近年来被寄予厚望的法律科技新路线，是以统计学为理论基础，利用神经网络、决策树等算法处理海量的法律数据从而基于相关性得出推理的结论。随着数据的可用性、结构化和不断更新，理论和实证研究人员可以推进我们对复杂适应系统法律制度的理解。数据驱动的机器学习和法律推理过程之间的相似之处不仅仅体现在判例法中，将法律规则应用于一组社会事实就是一个依赖于概念和规则之间的相互作用的算法过程，这些概念和规则在不同的概括性级别上表达，原则上与神经分层和将相对权重分配给新的信息输入没有什么不同，这些新的信息输入具有深度学习中使用的人工神经网络的特征。数据推理建模相较于规则推理建模，能够让法律人的操作经验以数据记录的形式输入到模型进行训练，模型可以随着数据的变化而进行优化，进而可以与时俱进地提高模型泛化应用能力。数据推理建模路径近年来主要表现为机器学习的方法，其模型中应用的算法包括分类、回归、聚类、降维四大类别。在开发类案推荐系统时，其任务是比较相关案件之间的近似性或者差异性，我们往往会选择分类算法；在离婚纠纷中进行是否做出离婚判决预测时，其任务是选择离婚或者选择不离婚，我们往往会选择回归算法；在开展刑事罪名预测时，其任务是将复杂的案件事实转化为特定的罪名，此时可以选择聚类算法；在几乎大多数对数据进行预处理的过程中，如裁判文书的可计算表示，一般需要用降维的方法。在一个实用的可计算法律模型中，往往会用到多种算法，甚至对同一个任务采取多种算法来提升模型的准确性、召回率。

根据不同任务下的数据质量和目标任务，数据驱动的人工智能模型开发可以分别采用无监督、半监督和有监督的机器学习算法。其中，无监督的机器学习算法只利用训练样本的数据分布或样本间的关系将样本划分到不同的聚类簇或给出样本对应的低维结构，主要被用于对样本进行聚类或降维，典型的算法包括尺均值聚类和主成分分析等。在加工原始法律数据时，为了减少人工处理数据的成本，可以利用无监督的方法对数据进行预处理，仅仅应用无监督的方法一般难以达到落地可用的效果。半监督的机器学习算法是在有标签样本较少的情况下，基于对数据结构特征的平滑假设（Smoothness Assumption）、聚类假设（Cluster Assumption）、流型假设（Maniford Assumption），利用隐藏在大量无标签样本中的数据分布信息来提升仅使用少量有标签样本时的学习性能。在特定法律任务下，如果能够对未标注数据的整体结构做出上述假设，则可以在少量标注下利用大数据进行学习。然而，法律人工智能的实践应用中最常用的依然是有监督的机器学习方法，所有的回归算法和分类算法都属于有监督学习，这样建模路径下用于模型训练的法律数据样本需要人工标注，从而形成一个有输入有输出的先验知识积累，也即样本和样本标签成对出现。监督学习的目标是从训练样本中学习一个从样本到标签的有效映射，使其能够预测未知样本的标签；支持向量机（SVM）、神经网络、K-近邻算法、决策树、朴素贝叶斯、逻辑回归都是有监督模型中的常用算法类型。

（三）规则+数据融合推理建模路径

规则推理建模代表了符号主义的人工智能路径，数据推理建模代表了连接主义的人工智能路径，他们分别具有一定的优点和缺点。以可计算法律模型构建中常用的自然语言处理技术为例，根植于数据基础上的大规模预训练模型形成了“力大者为王”的道路，其道路宽广，顺风而下，但貌似快走到尽头；根植于规则基础上的小数据、富知识、因果推理形成了“智深者为上”的道路，其道路狭窄，逆风而上，但应该会悠长隽永。为了达到一种可负担、可落地的效果，学术界和产业界都在开始探索第三代人工智能路径，也即知识+数据+算法+算力相融合的建模路径。算法和算力是计算科学的基础知识而非计算法学的主要研究目标，广义的知识包括了数据标签和推理规则，依赖专家知识而形成数据标签已经在数据推理建模中得到较好应用，下一代可计算法律模型发展中需要强调的是融合推理规则和训练数据，故而在探索可计算法律的道路中应当提出“规则+数据”相融合的新方法。这种模式体现了人机协作的人工智能发展阶段，其适中的绩效状态往往也能够较好地满足实用目的，故而成为了当前可落地人工智能模型开发中最实用的方法。近年来，在国际法律人工智能领域享有盛誉的ROSS Intelligence也充分利用了规则+数据相融合的建模路径，其引入法律知识突破，同时依托的IBM Watson自动处理大量的非结构化和半结构化数据，进而训练形成一个可以在破产纠纷等特定案由领域落地的法律人工智能系统。

相比于规则推理建模路径和数据推理建模路径，规则+数据融合推理不是严格意义上的新方法，其主要体现的是一种可落地应用的工程思维。在一个多功能的法律辅助系统中，务实的工程方法也是根据不同的任务而分别选择规则推理建模、数据推理建模的方法，从而根据任务环境做出最佳选择。例如，在一个罪名预测的任务中，我们可以用数据推理建模的方法对案件适用的法条进行预测，然后根据规则确定目标任务的罪名结果。同理，在一个类案推荐任务中，我们可以用数据建模的方法对案件的争议焦点、适用法条、案件事实分别进行预测，然后根据预测结果和相应的推理规则来确定类案匹配任务的方案。在智慧法院的建设工作中，最高人民法院近年来积极推动要素式审判，其主要内容是对固定案情的基本事实要素进行提炼，就各要素是否存在争议进行归纳，包括要素式庭审和要素式裁判文书制作两个方面。在该机制下，可计算法律模型会设定案件事实自动抽取任务、法律规范自动推荐任务、裁判文书自动生成任务等，其任务的实现方法一般都需要用规则+数据融合的推理路径。

Part.3

可计算法律发展的实践论

可计算法律的实践是一个跨学科、跨部门的系统工程，需要法律实务部门、法学研究机构、计算机研究机构、信息系统开发企业等共同参与，需要使用计算机的基础知识、前沿技术，也需要对法律知识进行挑选、总结和再造，下文从法学研究和法学教育的角度提出实践路径。

（一）开展可复用的法律知识工程

在可计算法律的实践发展中，我们要尽可能将法律人的思维方式赋予智能法律系统。按照法学知识体系，法律概念、法律行为、行为主体、权利义务、法律关系等等构成了法律人进行逻辑思维的基础，这可以让法律人将各类生活中的事实转化为法律中的事实，进而得出法律领域的计算结果。然而，人类所使用的自然语言与计算机所使用的编程语言是存在差异的，将人类语言表达的法律知识转化为计算机可以处理的信息就是法律知识工程的任务，也可以称之为知识表示任务。在计算机科学的发展过程中，知识表示的方法主要有本体、语义网、知识图谱三个递进的方法，同时也包括谓词逻辑、框架、产生式规则、决策树、贝叶斯网络、马尔科夫逻辑网络等。目前的法律知识表示工作依然处于一事一议的个性化研究阶段，这导致相关的法律知识工程成果可复用性差，进而增加了可计算法律系统的开发成本、降低了相关工作的可持续性。在可计算法律的发展历史中，我们需要补足长期开展而一直没有形成有效成果的法律本体构建，同时也需要结合近年来的技术发展趋势构建不同领域的法律知识图谱。

要在计算机环境中表示法律知识，首先就要构建法律领域的本体模型，这也是法律语义网、法律知识图谱建设的基础。本体能在语义和知识层次上表示专业领域的概念及概念间的相互关系，从而让计算机理解法律数据中所蕴含的专业知识，而非将计算机记录的信息仅仅作为字符串存在的原始数据。包括法律本体在内的本体构建工程有超过半个世纪的探索，国外已经形成了计算机科学家与法律专家合作并得到政府部门支持的研究项目和研究成果，故而相关成果可以直接应用；国内的相关研究工作则主要是由计算机科学家根据其模型开发需要而从法律专业资料中选择部分内容作为依据，故而只能是一种展示计算能力的原型系统。需要说明的是，法律知识工程是一个耗时耗力的工作，国内外都存在一些以壮志豪心启动而以较低成效收场的法律知识工程，其主要原因在于法律本体构建往往与法律智能系统开发绑定在一起而增加了工程负担。例如，日本文部省在1993年提出了法律专家系统的五年开发计划（1993—1998），该专家系统设定的一些自动推理目标没有按预期实现，反映出同时开展法律本体构建、自动推理等复杂系统工作是存在巨大困难的。法律本体构建作为法律知识工程的一个初期工作，其本身就具有独立的价值，需要将法律本体构建工作放在更加基础性的位置。

法律知识图谱构建是大数据应用时代，知识表示技术在法律领域的应用。随着计算机的普及应用，法律工作中的大量知识以电子数据的形式被记录下来，然而其往往是以无逻辑关系的字符串方式存在。知识图谱是一种用三元组方式来表达实体、概念及其之间各种语义关系的技术，其能够在法律本体库的基础上，于法律大数据中构建起连接关系，最终用图的数据结构或者网络的形式去存储和表达知识。从目前法律人工智能的研发来看，结合人工标注形成的数据集和知识特征工程，按照法律要素框架，开展命名实体识别、关系抽取、属性抽取、事件抽取，进而形成一个可用的法律知识图谱模型。目前，构建知识图谱的方法主要是众包法、爬虫、机器学习、专家法等，可计算法律模型的开发中主要依赖专家经验、机器学习，而未来的方向则是实现相对少量的人工标记+大规模机器学习相结合的新路径。

（二）构建可高效处理的法律数据集

法律大数据的存在方便了计算处理，基于大数据形成的各种算法模型则有力地促进了可计算法律系统的落地开发，而法律计算任务中所利用的数据在实践中还有很多亟待完善的地方。数据是构建计算系统所必需的关键基础设施，其在很大程度上决定了计算系统的性能、公平性、稳健性、安全性和可扩展性。在目前的人工智能产业中，大多数组织对不可见、费力且理所当然的数据工作缺乏系统认识，计算科学专家都想做模型而非数据工作，这导致了糟糕的数据实践，进而引发数据库级联及一系列的数据质量和伦理问题。我们需要意识到原始采集的数据仅仅是一个记录功能，用于模型训练的数据则需要筛选出那些有必要作为正确样例进行学习的样本，同时也需要让数据融入法律知识工程并以更加结构化的方式被法律智能系统所理解。这些工作，往往不是计算机科学家可以解决的问题，而是需要本行业的专家对数据进行筛选和标记，从而形成可以被高效处理的法律数据集。

法律数据集构建需要经历从无到有、从劣到优的不同阶段。随着数字化转型的发展，法律数据集已经基本完成从无到有的阶段性任务，法律智能系统研发组可通过各种公开渠道或者合作渠道获取法律数据。可公开获取的法律数据集包括三类：其一，各类政府机关建立的法律信息服务平台所存储的数据；其二，其他组织或者个人发布的法律数据集；其三，研究人员在发表论文等科研成果时所发布的数据集。计算机技术的发展减轻了知识生产的劳动强度，同时也让低质量的知识生产更加容易，有意的粗制滥造和无意义的知识复制增加了知识的复杂度，还有一些低质量的知识也能够被持久地记录和广泛地传播，这要求我们警惕“法学伪劣知识无序积累”的局面。如果我们不加区分地对这些知识形成的法律数据进行处理，那么基于此而形成的机器学习模型自然也就缺乏可信度。在商业领域开发的个性化推荐算法即便所依赖的数据存在偏差也不会产生实质的影响；然而法律关涉人的权利义务，准确性是法律取得公信力的生命线。所以，我们需要筛选形成可信的数据集，如可以成为学习样本的案例库、可以识别有效性的法律法规库，以避免数据中存在的偏差通过法律智能系统被错误地固化。

在目前的法律数据集来源中，研究者发布的数据在法律智能系统任务开发中的可用性最高，但是其往往只能用于特定范围的小任务；政府和企业发布的数据可复用性强，但是其往往服务于信息公开或者知识产品服务，这些数据对于法律智能系统任务而言可用性较差或者成本较高。面向未来，法律智能系统开发实践需要更多能够用较小处理成本获取的高质量数据集。由于法律智能辅助任务丰富多样，法律数据本身也在不断更新发展，所以在实践中不可能形成一劳永逸的数据集。但是，我们可以建立通用数据集+特色数据集相结合的法律数据中心，在裁判文书、法律法规、学术文献等通用领域建立高质量的结构化数据库以成为公共产品，在合同文本、起诉状、特定案由裁判规则等领域推广优秀数据集以鼓励特色数据集的创造。结合法律知识工程的成果，我们还需要完善数据采集和存储的技术标准，提高法律数据的操作性和可复用性。例如，最高人民法院统一裁判文书编号、统一案由分类，这些都是提升数据质量的具体方法。此外，正如《欧洲数据治理条例（草案）》所提出的，我们必须建立一个单一的联络点，以支持研究人员和创新企业能够利用合适的数据来提高技术能力。在中国可计算法律的发展道路上，我们期待一个协调有力的组织推动法律数据标准体系的完善，协调法律数据的生产和利用。

（三）培养具有计算思维的法律人才

目前，计算思维已经成为一种与实证思维、理论思维相并列的解决问题的思考方式，其内涵是运用计算科学的基本理念来解决问题、设计系统以及理解人类行为，数据、分解、模型、模拟、自动化、算法是计算思维所需要深入掌握的基本概念，“输入→算法模型→输出”程序是可计算法律设计的基本形式。也有观点进一步提出计算法学思维，其要求法律人在解析法学研究问题时能够意识到怎样的法学问题有可能被数据化，并适合通过计算机实现，设想出将问题分解为计算机可实现问题的路径，并能进一步了解实现需要的方法和条件是否存在，以及掌握建立条件、运用方法让计算机系实现研究的能力。

开创具有计算思维的法学教育也是一个正处于发展之中的行动，不论中外，许多法学院都已经明确把促进交叉学科创新和培养科技运用能力作为其学院的整体发展使命之一。例如，美国律师协会未来法律服务委员会的研究报告指出，法学教育很可能正处于一个时代的转折点，在这个时代中，法律科技应用技术类课程的数量比以往任何时候都要以更快的速度增长。然而，将计算思维纳入法学教育是一个存在难度且具有争议的问题。根据我们的跟踪观察，目前大多数高校的法律与科技项目都偏重于知识产权法、信息技术法、数据法的研究，真正开设有计算思维法律人才培养项目或者课程的只有斯坦福大学等少数学校的法学院。在这种背景之下，有人假想在麻省理工学院专门创办理工特色法学院的可行性，从而区别于传统的文科法学院，培养符合21世纪新需求的法律人。未来，我们需要充分认识在法学院进行科技创新可能面临的种种障碍，这些障碍包括传统认知、未知的压力、过时的课程、教学和评估方法、法学院排名、教师抵制、对现有技术的无效利用以及法律教育成本的上升。法学教育应当维护传统还是鼓励创新，这是一个长期争论的问题。计算法学的法学教育者在发展过程中需要平衡短期利益和长远前景之间的关系，主管部门和评价机构也应当为法学教育创新探索提供必要的试验空间和鼓励措施。近年来，法律创新实验室正在成为培养计算思维法律人才的基础设施，国外法学院在21世纪兴起了法律创新实验室建设趋势，我国教育部在2021年12月公布了首批文科实验室建设名单。我们期待以此类实验室为载体激发法学和计算科学融合的新思维，倡导协作工作、基于实践和基于工具的研究方法，形成对法律创新发展具有实用性和创新性支持的研究成果。

Part.4

结语

科学发展的主要目标是降低复杂度、提高可计算性，而当代的计算能力突出体现在计算科学技术之中。计算法学的发展需要我们从可计算的思维创新法学知识的生产和服务方式，进一步强化法律规则的权威性、裁判标准的统一性和知识内容的数据化、标准化。面向未来，我们需要在法律知识表示方法、法律数据利用能力、法律可计算建模技术、智慧司法程序创新、未来法律知识中心、复合型人才培养等方面完善计算法学研究方法和学科体系。在计算法学的研究之中，法律人要善于以数据输入+算法模型+结果输出的思维定义法律任务，计算科学人也要更加全面地引入法律知识和复杂任务。此外，在法学学生中进行AI4Law和Law4AI的双向学习，有利于更好地培养法律思维和创新精神，更好地适应未来社会的发展需求。

原文刊载于《浙江社会科学》2022年第6期，转载自微信公众号“浙江社会科学”。

文档下载申卫星刘云——探索可计算的法律发展道路

【作者】申卫星 刘云

【内容提要】

【作者】申卫星刘云