【作者】王伟
【内容提要】
*王伟
香港大学法律学院博士候选人。
本文计算社会科学相关部分之完善得益于香港城市大学祝建华教授的指正与建议,机器学习与社会科学研究之关系的部分受到西安交通大学“中国社会学40年与实证社会学发展”国际会议与会专家的启发,请参见正文引注与脚注,在此谨致谢忱。但一切文责归于作者本人。
摘 要:法情景在文本意义上作为“教义法学”研究的质素,在我国引入“社会科学法学”之际面临反权威遵从的价值困境;同时,依赖传统小数据低维集群所形成之“实证法学”与基于新兴大数据高维空间所表征之“计算法学”在“智慧司法”的科学主义情怀基础上,形成围绕法本体论、法律共同体职业化与法学研究方法论的争论。以“计算法学”为关照旨在辨明“作为文本大数据的法律”(LegalText as Data)如何在工具性的层面构成法学量化研究的基本范畴,并因此成为“问题导向”的探索或实证路径的正当性基础。研究目的有三:第一,引入社会科学实证研究之体系,探讨实证计算方法是否可以和如何缓和上述争议;第二,阐述如何以计算智能所赋予的“因果关系科学”为基础构建法学研究范式,而非仅仅“诠释性”与“相关性”;第三,解释如何经由计算社会科学之方法(数据抓取、在线实验、网络分析、文本挖掘与内容分析、时空分析等),将微观个体层面的元数据推演至表征宏观整体的作为社会事实的法律。
关键词:计算社会科学 计算法学 法教义 文本大数据 因果关系科学
西方科学的发展基于两个伟大的成就:希腊哲学家发明形式逻辑系统(欧几里德几何),以及通过系统实验发现因果关系的存在(文艺复兴时期)。 ——Albert Einstein (1953)
一、问题的提出
哈佛大学的迈克尔·桑德尔在其著作《公正》的开篇中至少显明了两种关于道德推理(Moral Reasoning)的政治哲学考量:结果主义与绝对主义[1]。概括言之,结果主义道德推理构筑于事物导致的后果,亦即:可经由量化的数值对结果的“功利”进行测度;而绝对主义隐喻了一种行为本身的道德性,亦即:不论结果如何,道德本身总表征一系列具有限定性的明确的职责和权利。因循此种二分法[2],不难发现我国法学界曾经面临的“教义法学”(规范分析)与“社科法学”之争有着类似的逻辑[3]。随着学术讨论的深入[4],不可否认的是,“教义法学”至少存在三个质素[5]:第一,概念化或者“概念遵从”,意指“教义法学”是对法律文本和法律概念的研究并遵从文本,而文本来源是法律或规范本身以及司法判例;第二,体系化或者“语义规范”,指“教义法学”中的规范所涵摄之价值通过互恰的结构性语词被外界感知;第三,科学化或者“逻辑外观”,指为实现法的安定性并因此可以被公众预测,需要将体系化的概念用因果证明进行科学构建。
有趣的是,“教义法学”的这种“概念-体系-科学”层次结构说明其重视法律文本与语词之间逻辑的自洽,亦即形式逻辑在其中占有较大比重。在这个意义上,“教义法学”因容易孳生法律中心主义[6]、法律万能论[7]或法典拜物教[8]而饱受自由法学运动的批判[9]。基于类似的理由,“社科法学”反对全然的概念遵从,至少有观点认为“社科法学”的出现与需求恰好反映了经验性的社会事实对“法律为何不能被实践”这类问题的回应[10]。而若将法学方法论的“光谱”置于现时,人工智能的飞速发展也为法学研究与法律实践奠定了科学主义[11]的基调。在我国,多家法学院已经开设“计算法学”[12]、“人工智能法学” [13] 、“未来法治”(法律+科技)[14]、“智能审判与法律大数据”[15]等面向或涉及数据科学或人工智能的跨法学学科课程教育。但是,我国实际缺乏具有多学科背景与知识同理心的教学与研究人员[16]。难以想象一位不懂机器学习算法及其逻辑以及精通至少一种编程工具(比如,Python或R)的法学家讲授需要精巧数理功底的数据分析,也难以想象没有经过系统法律思维训练的数据科学家能够在思索算法结构的同时考虑到法律的朴素价值及其形式与实质推理程式。就如同有的学者所告诫的那样,当下许多“AI+法律”的任意性组合不过是借用人工智能所能提供的部分“人脑智慧增强”,将自动化处理等同于人工智能,将需要借助乃至倚靠计算(机)科学的法学学者标签化为人工智能学家是一种对教义法学的反智化[17]。
有鉴于以上争论,本文试图回答:是否有一种被称作“计算法学”的学科框架可以承载作为辅助性新工具的数据科学和人工智能,并同时与法教义相契合?本文无意起定纷止争之目的,相反,其旨在论证一种基于“作为文本大数据的法律”(LegalText as Data)如何在工具性的层面构成法学量化研究的基本范畴,并因此成为“问题导向”的探索或实证路径的正当性基础。本文之目的有三:第一,引入社会科学实证研究之体系,探讨实证计算方法是否可以和如何缓和上述争议;第二,阐述如何以“因果关系”为基础构建法学研究范式,而非“诠释性”与“相关性”;第三,解释如何经由计算社会科学之方法(数据抓取、在线实验、网络分析、文本挖掘与内容分析、时空分析等),将微观个体层面的元数据推演至表征宏观整体的作为社会事实的法律。
二、对实证法学研究方法的误解与澄清
法律在本体论层面是教义的(Doctrinal)、规范的(Normative),但也是拟制的(Positive)。因此理想状态下,拟制的法律规则和法律标准会具像化规范价值并保障规范目的之达成[18]。法律规则和标准的基础是对个体智慧、态度和行为的拟制性假设,亦即,关于个体普遍接受何种规范价值以及如何激励个体做出适当的社会行为,以最大化地实现社会规范目标的假设[19]。如果法学研究的格局仅仅止步于此,则我们无法找到一种范式来验证为何应当采用(立法面)或适用(司法面)某种法律、法规和程序性规则的拟制性假设之效用与有效性[20]。这种观点的萌芽与早期的经济学家基于法律现实主义(LegalRealism)[21]率先探索实证法学这一现象密切相关[22],比如波斯纳曾就霍姆斯大法官对法律现实主义的论点[23]进行比较分析,以佐证他的法经济学理论[24]。正是由于经济学家的前期积淀,实证法学很容易被误认为只是定量研究。比如,在当代美国的实证法学研究谱系中,方法论主要是定量的,并侧重于因果探究。采用定量方法的学者经常将统计技术应用于大型数据集以寻找法律事实之间的因果关系[25]。
近年来在中国,实证法学作为一种“新事物”开始受到关注和实践,但是中国实证法律研究的群体对域外的实证研究的态势和体系化并不明确[26]。同时,左卫民教授认为:“所谓法律实证研究,本质上是一种以数据分析为中心的经验性法学研究”,并将之与社科法学进行了“血缘”的区分,同时提出“定量法学”与“质性研究+定量法学”之范式争论[27]。此种争论在笔者看来可以归结于“定量法学”对于学术期刊的市场需求(尤其是美国期刊市场)的迎合以及前文所述的经济学家之早期介入,况且纵观国际学术史,不论“教义法学”或“社科法学”乃至“质性法律研究”在晚近十年之前已经蓬勃发展[28]。
具体而言,实证法律研究的理想方法应当随着对研究问题(ResearchQuestion)的了解程度而按照“探索性-描述性-阐释性”进行调整。在此调整过程中,首先,实证法律研究并不直接等同于定量法律研究,比如在探索阶段和个案研究中,“实证”也可以意味着“以研究者本人为工具,对资料的整体性关照和推理”(质性);其次,“实证”所代表的经验性使得该研究主要关注事实(Facts)而非价值(Values);再次,“实证”聚焦在“实然”层面,而非“应然”,而“实然”并不能当然地推导出“应然”,只能作为“规范论证的实然基础”,即“手段能否达成目的”[29]。最后,实证法律研究的“科学性”主要体现在可重复性(Replicability)之上,因而可以被证伪[30]。
三、从计算社会科学到计算法学:作为文本大数据的法律
我国的实证法学和实证社会科学都面临着工具性需求跟不上理论发展的困境。在社会科学领域,尽管定量方法发展迅速,但是直到2010年前后才有人开始正视内生性问题[31],大部分研究仍然停留在简单统计回归的相关性分析,“缺乏基于因果推断的解释能力”[32]。类似的,我国实证法律研究还处在“以描述性统计为主,兼及较少推断性统计”等较弱工具性的经验研究阶段,其测量复杂社会法律关系的数理工具远远落后于社会学等社会科学研究。比如左卫民教授在梳理之后发现,按照实证的基本特质判断,法学部门甚至存在“看似实证”的学术研究[33]。法学与其他社会科学都严重依赖人类社会的内部互动,而以人类为中心生发出的“联系性”网络在复杂系统意义上是“不确定性的非线性”[34]。这意味着传统实证方法基于的“方程建模”并不能足够精细地表征这样一种非线性的结构[35]。因此,社会科学各部门如社会学、政治学、传播学甚至语言学等传统上被视作“定性或半定量”的学科开始凭借大数据,试图参与社会计算(SocialComputing)[36]。
(一)计算社会科学的兴起及特征
2009年,以大数据为讨论对象的著作《第四范式:数据密集型科学发现》面世[37]。同年,Lazer等人在《科学》上较为完整地介绍了“计算社会科学”(ComputationalSocial Science)[38],其强调计算社会科学的快速发展得益于传播媒介自动产生的大量痕迹性非结构化数据。紧接着第二年,Cioffi-Revilla 延展了Lazer提出的概念,并根据适用环境的不同,将计算社会科学的方法分为自动信息提取(数据抓取、文本挖掘与内容分析)、社会网络分析、空间地理分析、复杂系统建模以及社会仿真模拟[39]。学科范式讨论的热度一直持续到2012年,由Conte为代表的14位学者在著名物理学期刊上发表《计算社会科学宣言》[40],宣言表明“与实验方法相结合的计算方法,将使社会科学更接近于建立理论、经验事实和研究之间的良好连接”[41]。因此,大数据计算社会科学的“化合反应”开启了社会科学方法的更新与迭代。
计算社会科学的兴起主要源于网络科学(Network Analysis)的发展和巩固。复杂系统中的大数据带来了人类思维的转变。大数据挖掘在知识发现的含义上与传统研究方式的区别在于:首先,传统统计的演绎推理模式不同于大数据挖掘分析中“演绎推理+归纳总结”相结合的模式[42];其次,传统统计强调有限个自变量对因变量的影响,而大数据挖掘分析强调多因素共同作用[43];最后,传统统计关注变量之间的线性关系,但是大数据挖掘分析“自动考虑变量的形式转换”,从而能够可视化变量之间的非线性关系[44]。所以,计算社会科学的兴起主要是为了克服类似“根据传统的社会科学调查方法所收集的数据所建立的模型无法满足研究者模拟复杂的环境下的动态社会过程的需求”这样的窘迫[45]。
计算社会科学的主要特征顾名思义,即“可计算性”[46]。“可计算性”脱胎于社会的信息处理范式(Information-ProcessingParadigm),其有两层含义:第一,从实质的角度来看,计算社会科学的存在前提是人类和社会广泛的加工处理信息,这意味着计算社会科学使用“信息处理”作为解释和理解其学科范围内的社会和人类如何运作以产生、涌现复杂系统的关键要素[47];第二,从方法论的角度来看,信息处理范式指向计算作为建模和理解社会复杂性的基本工具方法。但这并不意味着其他方法,如历史、统计或数学变得无关紧要。 相反,计算方法必然依赖于这些早期的方法,以便提高人类对社会复杂性的解释力和理解力[48]。因此,“可计算性”保证了前文论述的实证研究方法仍然可以在计算时代适用。这为“作为计算社会科学的法学”(计算法学)的底层方法论标注了讨论的起点。
(二)计算法学:作为文本大数据的法律
广义的讲,计算法学(Computational Law)涉及人工智能与法律互动的三种方式:法本体论,即人工智能对法律的结构性影响(LegalImplications of AI);法律职业科技化,即法律科技与法律共同体的嵌入乃至自洽(Legal Tech);法学研究视角,即法学研究可以如何迎接作为研究工具的人工智能之机遇和挑战(ComputationalLegal Studies)。在这个角度,本文同意学界对“计算法学方法”与“计算法学的研究方法”的区分[49]。而作为计算社会科学的法学实际上依赖“可计算性”。如同有的学者归纳的那样[50],经济学、心理学、计算机科学、生物学、语言学分别找到一种“度量衡”,比如货币衡量经济,分组实验比较心理,比特度量信息,基因分析遗传和变异,关系和矩阵描述网络和语言,从而获得“可计算性”。那么作为计算社会科学的法学(计算法学)的度量衡应当是什么?
1. 计量法学的“可计算性”
全球范围来看,最早提出法学的“可计算性”的学者要数提出将计算机与符号逻辑应用到法律议题的罗伊温格(Lee Loevinger);而何勤华是我国最早提出法的“可计算性”的学者,并将之定义为“计量法律学”,只是这个概念在当时太过“前沿”,很少有能够对法“可计算性”具备同理心的学者[51]。后来,有学者定义“计量法学是指通过收集大样本数据,对具有数量变化关系的法律现象运用定量研究的交叉学科。它是一门独立的学科,其研究对象是具有数量变化关系的法律现象,研究方法是实证方法和计量方法”[52]。从这个定义中不难看出,计量法学的内涵几乎与定量法学研究的内涵相同。
那么,计量法学在这个定义之下的“可计算性”指代何种质素?从其描述看,计量法学运用了传统统计学的方法,其在构筑法学量化研究的中文语境之中层理论时对概念进行了“套用-延展”乃至“局部创新”[53],依然属于“理论驱动”的实证研究。回到前文提到的计算社会科学的“可计算性”之上,计量法学并未强调“信息处理范式”,即并未依赖痕迹型数据进行实证研究。传统的统计数据非自动化收集[54],属于“矮胖型”,即样本量少,变量多[55];而法律大数据意义上“可计算”的数据自动化收集(比如痕迹型数据[56]),属于“均衡型”,样本量大,变量也多。同时,以裁判文书为例,文书信息公开中存在的元数据“过度隐匿与缺失”使作为文本大数据的法律大数据呈现“异质性”较高的特点[57]。由此对比来看,计量法学的“可计算性”更多地指向传统的“矮胖型”数据,并非自动化收集的“均衡型”数据。
2. 计算法学的“可计算性”
张妮博士与蒲亦非教授所著《计算法学导论》在中文世界里第一次明确提出计算法学的概念,张妮博士随后参与撰文提出:“计算法学涉及计算法学理论、立法实验、司法预测、法律的语义挖掘、法律逻辑分析、司法管理系统、司法证据等几方面研究”[58]。其所总体上强调的“计算智能”(Computation)恰好印证了“可计算性”所要求的信息处理范式。钱宁峰博士通过对计算法学概念的拓展,将计量法学的传统样本数据突破至“第四范式”的“密集型数据”,他认为这是“传统法学研究融入更为高级的法学研究形态中的过程”[59]。直到最近,学界几乎同时出现两种计算法学的认知体系。邓矜婷博士和张建悦[60]认为计算思维可以继逻辑思维和实证思维之后成为第三种思维模式,因为这种观点将计算思维与实证思维进行了区分,实际上将计算法学的研究方法与实证法律研究进行了切分,突出计算智能,本文以“计算智能论”为指代;另一种体系具有强烈的社会科学方法论关照,于晓虹博士和王翔[61]认为“计算智能”属于计算法学研究的一环,比如提取文本数据;因为其尝试用因果关系(Causality)、定量与定性等概念构建混合的计算法学,突出实证与解释主义;他们通过比较数据法学、计量法学以及计算法学,认为计算法学位于数据驱动、问题驱动以及算法驱动的平衡态;同时,其立足现有在量化体系较为成熟的法社会学、犯罪学与司法政治学,将计算法学的发展概括为基于“法律科学+计算科学+数据科学”的“计算法学研究”生发出的“法律科技”、“智慧法院”与“智慧检察”共同体生态体系[62],本文以“计算研究论”指代。以上两种论断不分轩轾,只是视角不同,但是某种程度上表明应从认识论上适当区分“广义计算法学”(ComputationalLaw)与“计算法律研究”(Computational Legal Studies)[63],以厘清计算智能为法律共同体(产业、实务与学术研究)带来的不同面向的机会与挑战。
四、法律论证与规范:基于因果关系科学的计算法学框架
同时,上述的两种认识论划分也可以回到本文一开始提出的问题:是否有一种被称作“计算法学”的学科框架可以承载作为辅助性新工具的数据科学和人工智能,并同时与法教义相契合?
(一)法教义的计算法学外观
开篇已经论证,教义法学有强烈的概念遵从,并符合形式逻辑。司法三段论是法律推理的基本形式[64],即以法律条文或先例为大前提,案件事实为小前提,所获结论是案件的判决结果[65]。因此,理想情境下,教义法统摄下的司法三段论应当具有合概念性的判断。在法律推理智能化的研究成果里,匹兹堡大学的KevinD. Ashley的论述具有里程碑意义,尤其是其出版的《人工智能与法律分析学:数字时代的法律实践新工具》中搭建了一个关于法律推理的框架和愿景[66]。他从法律专家系统(Legal Expert System)讲到论证检索与认知计算(ArgumentRetrieval and Cognitive Computing),并认为人工智能之于法律分析应当包含至少两种法律推理、一种法律预测和一套法律论证模型[67]:
· 制定法推理(StatutoryReasoning),
· 基于案例的推理(Cased-basedReasoning),与之对比基于规则的推理(Rule-based Reasoning)
· 基于机器学习的法律预测(PredictingLegal Outcomes with ML)以及
· 法律论证的计算智能模型(ComputationalModels of Legal Argument)
而在我国,智慧司法的科学主义研究和实践远超想象。比如在刚闭幕不久的“中国法研杯”中文法律阅读理解比赛中,大赛主办方以篇章片段抽取型阅读理解比赛(Span-ExtractionMachine Reading Comprehension)为基础,事先公布民事与刑事裁判文书的两类测试集。测试集里是一段段冗长的案件事实,比赛设立三个片段抽取问题(比如金额、地点、时间人物关系等),一个是否类问题以及一个拒答问题[68]。这样的经过数据训练的机器学习同时也是类案推送这样的“智慧法院”[69]项目的基础性工作。
“智慧司法”中国方案的核心体现在司法体系中“计算智能”参与“审判辅助”、“事实查明”与“规则适用”的程度,从而形成从“专家审判司法”演变至“智能人工司法”的趋势[70]。可惜,就“规则适用”而言,何帆法官曾结合自己的经验概括目前还达不到类案“智能推送、精确回应”的原因主要是:每一个法教义背后都隐藏了千百种“适用场景”,对应着各类成文或不成文的规则。如果没有法律专业人士去提炼、分类、整合并标准化这项“法律适用规则”、“量刑操作规则”、“证据审核规则”、“程序把关规则”等等,将之转化为算法嵌入,机器就只能按照自然语言处理后的、问答间具有一一映射的简单问题,面对复杂案情束手无策[71]。他还归纳了理想的“类案推送”应当符合相似性判断、有效性判断、相关性判断以及技术性判断,经过“投入多少人工,就有多少智能”,绘制出“法律知识图谱”以完成法律概念(法教义)的本体论(Ontologies)[72]与类型化系统[73]。
(二)计算法学前史之相关关系(Correlation)与因果关系(Causality)
在计算法学的概念兴起之前(此处称为计算法学前史),定量实证法学在美国和欧洲基于计量经济学(Econometrics)的发展,较我国更早开始关注因果推断(CausalInference)[74]。而我国法学界的现实状况是以描述性统计为主,能够分析相关关系者渐多,有探寻因果关系者寥寥无几。若坚持以“规范与事实之间有效联系”为法律的圭臬,则可能片面忽视法政策层面的评估和检验,同时此处的相关关系(相关性)应当特指大数据网络科学意义上的“点与点”之间的“连接”,而不是本文此处打算拿之与因果关系做比较的统计相关关系。下文讨论统计学意义上的相关关系与因果关系如何影响法学研究。
首先,当实证法律研究大量使用回归分析等统计方法来进行因果推断时有一个重要前提:研究者应该已经通过探索性研究知道变量之间的内在逻辑关系[75]。在没有达成这个前提之下,单就统计推断进行参数估计并不能推断因果。这其实与事物本身的复杂性有关,在任何非实验情形下的事物极少有单一变量诱发的因果,多变量的因果关系影响反而更加普遍[76]。如表二所示,其说明了三个变量之间的因果关系的复杂性。“为了证明因果关系, 研究者一定要说明变量间的关联关系,确定合适的时间顺序以及对关联关系排除其他解释”[77]。必要时通过统计控制,对可能的因果路径进行打断,以辨明因果路径。
表一:多变量因果关系图示[78]
最后,非实验方法对于社会科学研究者而言容易导致内生性(Endogeneity)的危机[82],简言之,即前面提到的作为因果关系成立重要前提的“内在逻辑关系”(理论或假设)无法完全得到事先的确证。通过确保实验的随机性,这种自选择偏误可以得到有效消解,但实验费用昂贵以及存在研究伦理的问题,因此基于随机实验原理的评估工具被广泛使用[83];同时,针对遗漏偏误而言,基于反事实的理论框架可以清晰定义因果关系[84]。
(三)计算法学(计算法律研究)的因果关系科学
1. 作为计算法学 “理论桥梁” 的 “计算智能”
在计算法学前史中,不难发现依赖传统小数据微观低维集群所形成之“定性实证法学”(个案质性研究)在探索性研究阶段缺乏归纳式的思维工具,前辈的研究尽管以文献综述或者理论框架服务于后人的解释主义,样本的代表性为定性实证法学研究带来不可知论的恐惧。就算大数据的到来,传统“理论驱动”的定量实证法学研究方法总是带来因果关系内生性的焦虑,尤其值得注意的是内生性随着理论积累的过程有被放大的风险,用“可能早已污染的源头”(知识缺陷、信息不对称的累加)概括这样的窘境再恰当不过。陈云松在指出社会科学“研究时空的窄化与滞后”危机时,曾按照因变量Y与自变量X所对应的社会层级划分出[85]:
· “微观定量社会学”(X和Y都在个体层次),
· “中层定量社会学” (X在群体层次,Y在个体层次),
· “中层定量社会学跃迁分析”(X在个体层次,Y在群体层次) 与
· “宏观定量社会学” (X和Y都在群体层次)
这样的划分对法学研究亦有参考价值。按照陈云松的判断,前两种层次的主要矛盾是内生性问题,需要通过“更高质量和信息量的数据”以及“高级计量模型”加以解决;第三层次的跃迁针对复杂系统的“涌现”现象,即“群体现象从个体选择中涌现产生”,理想的研究手段自然是“通过实证校准的仿真模拟”;第四个层次由于缺乏宏观数据而发展滞后[86]。参照法学研究的现状,这样的情况可能更加严峻。以司法文书为例,大量庭审笔录、内部讨论等反映司法微观过程的材料并不公开,甚至非文字化、非数据化[87];同时,比如作为程序法的民诉法规定涉密涉私不公开,使得一些要案、大案、异质性特别强的案件文本无法作为数据被收集和处理;再者,法学界“高级计量模型”、“仿真模拟”的运用实力尚显不足[88]。最后,仅仅关注“量化”(“定量”)的实证是不能导出具有“应然”价值的法教义的,即代表因果关系的实证体系与代表法教义的法律推理之间缺少了一座理论桥梁,同时,法学研究的学科边界固化严重[89],而使得“计算法学”的学科框架不能共融。笔者认为这座理论桥梁就是“计算智能”(现阶段尤其指机器学习)。
本质上,机器学习使用数学函数来执行各种分析和分类任务。在“深度学习”方法中,数据被组织成概念,这些概念按层次表达,而其中较复杂的概念则由更简单的概念构建而成。通过使用量化的权重将数据分类为概念,权重的值会随着系统接收新输入数据而随时间调整。同时,通过递归操作,系统可以调整其内部操作模式,或换言之“学习”,从而从原则上纠正并逐步消除错误[90]。
从系统论来看,法律体系则利用概念来存储和保留信息。法律概念是按层次结构排序的,较高抽象级的类别统摄较低抽象级的子类别的范畴。法律概念具有响应外部信号进行自我调整的能力(规范解释)。同时,通过多种机制可实现系统级别的错误纠正,包括由索赔人主导的诉讼,上级法院对下级法院判决的复审以及对不可行或功能失调的规则进行撤销[91]。
从这个意义上说,将法律规则应用于一系列社会事实是一种演算法的过程,该过程取决于概念和规则之间的交互作用,这些交互作用在不同的普遍性水平上表达[92]。因此,此种过程与深度学习中使用的人工神经网络对输入端数据的相对权重进行神经层次化和分配的过程类似[93]。此为“计算智能”之所以有成为“理论桥梁”的重要基础。
2. 作为计算智能 “工具理性” 的 “因果关系科学”
“计算智能”(Computation)是计算类学科的通用特征,其强调对信息处理的过程性[94],这意味着应用型计算类学科的数据获取不再是被动的接受,而是主动的通过研究者自己的编程或其他计算处理获得比如“痕迹型数据”[95],因此带来高质量数据、大数据处理的高效性、“自下而上”的归纳优势以及“非介入性”的方法优势[96]。同时,狭义的“计算智能”虽然并不主要建立在因果关系之上[97],但是却生发衍生出了具有工具理性的“因果关系科学”[98]。Judea Pearl的《因果论》中曾有论断[99]:
“ […]从一个笼罩着神秘色彩的概念转变为一个具有明确语义和逻辑基础的数学对象。悖论和争议得以解决,模棱两可的概念得以阐明,那些依赖于因果信息、长期被认为是形而上的或无法解决的实际问题,现在也可以借助初等数学加以解决了。简言之,因果论已经完成了数学化。”
在此意义上,“计算智能”的“因果关系科学”为计算法学的研究提供了新方法和新视角。比如,于晓虹等人认为,计算法学突破传统实证法律研究的原因之一就是其能“追问法律制度、规范条文背后的事实基础和社会动因,…,在实然与应然之间的比照中, 探究法律制度的内在理性与意义空间”[100]。这也就回应了本文上节试图提出的传统法学的缺陷以及计算法学中“计算智能”所起的作用:“代表因果关系的实证体系(实然)与代表法教义的法律推理(应然)之间缺少了一座理论桥梁,即计算智能”。
首先,计算法学挑战了传统法学甚至传统实证法学的认知逻辑,其核心在于将研究重点从“分析数据”转换为“分析数据的生成过程”[101]。大数据与大数据的生成过程并不等同[102]。计算法学强调“发现的逻辑”[103],即:“研究问题导向[104]+法学理论奠基[105]+数据驱动[106]+算法约束[107]”。这意味着,经过“计算智能”的挖掘、清洗、算法处理等操作之后,非结构化的数据或变为结构化数据,或被注入一种事先设定条件的生成性、涌现型模型(有监督学习)进行训练和修正,或探索数据集的形式外观和样态(无监督学习),比如分类(Classification)[108]和聚类(Clustering)[109]等。继而引入因果模型和可迁移性(Transportablity)以形成法律大数据和因果关系的合作和融合[110]。
其次,计算法学重新回答了法学研究的导向性问题,将法学研究的视角放置于长期被忽视的[111],从前难以科学化理解的,更加高维的,宏观、大格局、整体性的群体复杂系统研究。依赖计算智能,计算法学可以将包含法律事实的文字、音频、图片和视频进行数据可视化,联系性地揭示法律实践运行中微观个体与宏观系统之间动态的“神经级”(NeuroscienceLevel)决策过程,使法学成为行为科学研究的学门。就在今年,《物理学报告》上线了关于“计算社会经济学”(ComputationalSocioeconomics)的综述性文章[112]。其实际上基于Duncan Watts的观点理论[113]提及社会科学在定量研究中比物理学更加复杂和困难的原因[114]。作者们把个人之于社会科学研究的作用与原子之于物理学研究的作用相比拟,但是又强调这样的比喻忽视了人的行为模式难以刻画这个挑战[115]。这同时也是自量化法学起,凡事涉及到对法律进行数量化、数字化的研究饱受质疑的原因。但是学术界已经有些独特的尝试,即使用一些数据结构不常规,与传统社会科学中涉及的数据迥异的数据[116],典型的例子包括卫星遥感数据[117]、移动电话数据[118]、社交媒体数据[119]等。类似做法在法学界主要集中在使用裁判文书[120]和专利[121]等被其他具有量化经验的学科(比如政治科学、经济学和管理学)经常使用的数据,也包括前面提到的社交媒体数据[122]等。
最后,计算法学要求主动干预和践行实验法则,防止法学研究出现悖论和伪命题。实验法则一直是自然科学的“天条”[123]。通过把大数据直接融入实验设计之中,强调“操作化干预( 原因) 、 随机化分配干预、 控制威胁内部和外部效度之因素、测量和识别实验效应( 结果) ”[124] 实验[125]的终极目的除了尽量消除前文提到的内生性以外,辨清实证法学研究中容易发生的悖论[126]和伪命题也可以是实验的应有之义。在前文提到的痕迹型数据的帮助下,法学研究也有机会进行在线实验(OnlineExperiment)[127]。同时,实验法则高度反映了“反事实”(Counterfactual)[128]的思维过程。反事实的构建依靠假设分析(What-ifs),即尝试问“假如…,则…”,以此形成道德行为和人类的独特思考[129],在法学意义上,形成了一种对教义的反思,“反抗”概念的遵从,因此能够弥补法教义的经验性缺失。
结论与解决方案:计算法学的框架构筑
综上所述,计算法学的出现在本质上是因为“计算智能”的技术升级,因此,计算法学的学科发展也同步受到计算科学的影响。在这个意义上,回头再次审视本文的研究问题:是否有一种被称作“计算法学”的学科框架可以承载作为辅助性新工具的数据科学和人工智能,并同时与法教义相契合?本文认为,这样的学科框架是存在的:以将法律视为文本大数据为出发点[130],在学习和研究的逻辑上可以根据三个维度和三个层次进行循证和认识:教义法维度、计算数据科学维度与统计学维度,以及方法论层次、方法层次与工具层次,如图一所示。
在方法论层次(Methodology),对于教义法而言,其强调概念遵从。社会和人类发展的经验并不应该影响法律体系的核心价值;对于计算科学而言,其基于实验法则形成相对严谨的因果关系科学,可以给法教义以经验的反馈;也因此,进一步完善了传统统计学维度的准实验规则(类实验环境)。因此,在方法论层面,法教义、计算科学以及统计学在功能上互补(先验与经验),内容上具有认识论意义上的先后次序(先掌握统计学,才能较好理解计算科学)。
在方法层次(Methods),教义法因为总是概念的自洽,对形式逻辑的论证、推理和预测需要在模型上与计算科学相适应,具体而言知识图谱和神经网络在推理模型上最为接近计算科学;计算科学之于社会,因为在人的复杂性上有别于自然学科,计算社会科学因此强调对“数据生成和涌现的过程”考察以发现模拟实验意义上的因果,以补足统计学的相关性分析。因此,在方法层次,法教义与计算科学同样功能互补,计算科学与统计学之间同样有认识的先后次序。
最后,在工具层次(Tools),教义法依据法律事实和法律规则,依照法解释学进行实践;计算智能通过对样态(Pattern)的分解,以元属性(Metadata)形成对法律事实和法律规则的具像化对应和映射;计算智能也同时是对统计模型的高维度的4V[131]升级。所以学科习得角度来看,有两条平行路线:第一,教义法的习得需要贯穿始终;第二,只有先习得统计学之后,计算智能才有灵活掌握的可能。
图一:计算法学之学科框架
其实,这样的学科框架乍一看几乎无法精通,因为不论教义法、计算科学还是统计学,这三条路径几乎都可以让一个人穷尽一生。而事实上,目前全球范围内,同时依赖教义法与计算/统计知识的法学研究的研究者背景近乎都是美国式的“法律博士JD+非法学的博士学位PhD”,或者本就是非法学出身的学者研究非教义部分的法律问题,又或者纯粹法学出身的法学家寻求与非法学学者(计算机科学家、通晓机器学习的计量经济学家、计算语言学家等)的合作。因此,计算法学的提出并不是一种时髦的刻意的创新,反而它是一种对知识的包容与好奇,以及反抗保守和固步自封的自由科学主义。否则,不难想象,在面临技术革新越来越快的浪潮,法律共同体可能越来越无法与其他学科对话,法律共同体曾为之自豪的思辨与表达,在“法律奇点”[132]到来之时,在某个时间点却可能突然变成“失语之症”。
[1] [美] 迈克尔·桑德尔:《公正》,朱慧玲 译, 中信出版社2011年版。
[2] 熊秉元教授把这种二分类归纳为“后果式思维”和“规范式思维”。参见:熊秉元:《论社科法学与教义法学之争》,《华东政法大学学报》2014年第6期。
[3] 苏力教授认为,我国法学研究的范式曾经历“政法法学”、“诠释法学”与“社科法学”之流变。参见:苏力:《中国法学研究格局的流变》,《法商研究》2014第5期。
[4] 除上述熊氏与苏氏观点外,关于“诠释法学”与“社科法学”之间的对话,可同时参见:张翔:《形式法治与法教义学》,《法学研究》2012年第6期;侯猛:《社科法学的传统与挑战》,《法商研究》2014年第5期;陈柏峰:《社科法学及其功用》,《法商研究》2014第5期;孙海波:《论法教义学作为法学的核心——以法教义学与社科法学之争为主线》,《北大法律评论》2016第1期;雷磊:《法教义学的基本立场》,《北大法律评论》2016第2期。
[5] 雷磊:《法教义学与法治:法教义学的治理意义》,《法学研究》2018年第5期;Terry Hutchinson & Nigel Duncan, Defining andDescribing What We Do: Doctrinal Legal Research, 17 Deakin Law Review 83 (2012).
[6] [美]菲利普•K•霍华德:《无“法”生活》,林彦等译,法律出版社2011年版。
[7] 易继明:《技术理性、社会发展与自由:科技法学导论》,北京大学出版社2005年版,第14-29页。
[8] 尹田:《民法典总则与民法典立法体系模式》,《法学研究》2006第6期。
[9] 雷磊,同上脚注5。
[10] 陈柏峰,同上脚注4。
[11] 虽然人工智能通常被看作是技术,但是法律共同体试图借助其以实现对法律现象与法律事实的科学化观测和理解,实际上是一种科学主义的倾向。这里的“科学主义”指“把自然科学技术作为哲学基础,并坚信其能够解决一切问题的观点”。参见:曹志平,邓丹云:《论科学主义的本质》,《自然辩证法研究》2001年第4期。
[12] 清华大学法学院成立智能法治研究院,并在法律硕士项目下开展“计算法学”教育。
[13] 参见:《西南政法大学拟增设目录外二级学科“人工智能法学”公示》。
[14] 中国人民大学法学院成立未来法治研究院,并开设“数据法学”荣誉课程。
[15] 四川大学法学院依托法律大数据实验室讲授“智慧审判技术装备”系列课程。
[16] 左卫民:《关于法律人工智能在中国运用前景的若干思考》,《清华法学》2018年第2期。
[17] 刘艳红:《人工智能法学研究中的反智化批判》,《东方法学》2019年第5期。
[18] John A. Ferejohn & Barry R. Weingast, APositive Theory of Statutory Interpretation, 12 International Review of Law and Economics 263 (1992).
[19] Id.
[20] Robert A. Kagan, What Socio-Legal Scholars ShouldDo When There is Too Much Law to Study, 22 J.L.& Soc’y 140 (1995).
[21] Karl Llewellyn,作为法律现实主义的创立者之一认为:实证研究(定量和定性研究方法)可用于提高美国司法制度的规范效率。参见:K.N.Llewellyn, The Normative, the Legal, and the Law-Jobs: The Problem ofJuristic Method, 49 Yale L. J.1355 (1940).
[22] Deborah R. Hensler & Matthew A. Gasperetti, TheRole of Empirical Legal Studies in Legal Scholarship, Legal Education andPolicy Making, in RethinkingLegal Scholarship 450, 452 (Edward L. Rubin et al. eds., 2017).
[23] Oliver Wendall Holmes, The Path of the Law, 10 Harv. L. Rev 457 (1897). 霍姆斯法官曾预言:“对理性的法学研究而言,当前的主宰者或许还是‘白纸黑字’的研究者 , 但未来属于统计学和经济学的研究者。”亦参见——苏力:《法律与科技问题的法理学重构》,《中国社会科学》1999年第5期。
[24] Richard A. Posner, The Present Situation in LegalScholarship, 90 Yale L.J. 1113(1981).
[25] Lee Epstein & Andrew D.Martin, An Introduction to EmpiricalLegal Research (2014).
[26] 左卫民:《一场新的范式革命?——解读中国法律实证研究》,《清华法学》2017年第3期。
[27] 同上,第46页。左卫民教授就“法律实证研究”做了美国式(定量)和英国式(质性+定量)的区分,认为整体上,美国式的解读,即定量法学研究已经成为实证法学的主流。
[28] Hensler& Gasperetti, supra note 22.
[29] 张永健,程金华:《法律实证研究的方法坐标》,《中国法律评论》2018年第6期。
[30] 波普尔定义:一个命题是科学的,当且仅当它是可证伪的。参见:[英] 卡尔·波普尔:《科学发现的逻辑》,查汝强,邱仁宗,万木春 译,中国美术学院出版社2008年版。
[31] 陈云松,范晓光:《社会学定量分析中的内生性问题:测估社会互动的因果效应研究综述》,《社会》2010年第4期。
[32] 陈云松,贺光烨,吴赛尔:《走出定量社会学双重危机》,《中国社会科学评价》2017年第3期。
[33] 左卫民,同上脚注26。
[34] 梁玉成,贾小双:《数据驱动下的自主行动者建模》,《贵州师范大学学报(社会科学版)》2016年第6期。
[35] 同上,第31页。
[36] 范如国:《公共管理研究基于大数据与社会计算的方法论革命》,《中国社会科学》2018年第9期。
[37] Tony Hey et al., The Fourth Paradigm: Data-Intensive ScientificDiscovery (2009).
[38] David Lazer et al., Computational Social Science,323 Science 721 (2009).
[39] Claudio Cioffi-Revilla, Computational SocialScience, 2 Wiley InterdisciplinaryReviews 259 (2010).
[40] R. Conte et al., Manifesto of Computational SocialScience, 214 Eur. Phys. J. Spec. Top.325 (2012).
[41] 张小劲,孟天广:《论计算社会科学的缘起、发展与创新范式》,《理论探索》2017年第6期。
[42] 传统统计学经历“抽象理论-具体假设-数据与资料收集-数据分析-变量模型-参数估计”的惯常流程之后才能经由统计推断验证假设是否成立,而大数据挖掘分析经由“数据先行-数据反映之规律-临时假设-数据确证”从而形成理论框架。参见:舒晓灵,朱博文:《知识发现与数据挖掘在计算社会科学中的应用》,《贵州师范大学学报(社会科学版)》2016年第6期。
[43] 传统统计学强调描绘一种变量之间的方向,但是依照前文所述“混沌性”,当变量足够多的时候,表面上无方向的“交互作用”在经过大量自动检测建议后,有较高的预测力。
[44] 舒晓灵, 朱博文, 同上脚注42。
[45] 梁玉成, 贾小双, 同上脚注34, 第34页。
[46] 王成军:《计算传播学:作为计算社会科学的传播学》,《中国网络传播研究》2014第0期。
[47] Claudio Cioffi-Revilla, Introduction to Computational Social Science2–3 (Texts in Computer Science, 2014).
[48] Id. at 3.
[49] 邓矜婷,张建悦:《计算法学:作为一种新的法学研究方法》,《法学》2019年第4期。
[50] 王成军,同上脚注46。
[51] 于晓虹,王翔:《大数据时代计算法学兴起及其深层问题阐释》,《理论探索》2019年第3期。
[52] 屈茂辉:《计量法学基本问题四论》,《太平洋学报》2012年第1期。
[53] 张小劲:《加强实证研究,建构概念体系:试论中国政治学术话语的发展策略》,《济南大学学报(社会科学版)》2017年第1期。
[54] 左卫民,同上脚注26。
[55] 祝建華,黃煜,張昕之:《對談計算傳播學:起源、理論、方法與研究問題》,《傳播與社會學刊》2018年第44期。
[56] Scott A. Golder & Michael W. Macy, DigitalFootprints: Opportunities and Challenges for Online Social Research, 40 Annual Review of Sociology 129 (2014).
[57] 杨金晶,覃慧,何海波:《裁判文书上网公开的中国实践——进展、问题与完善》,《中国法律评论》2019年第6期。
[58] 张妮,徐静村:《计算法学:法律与人工智能的交叉研究》,《现代法学》2019年第6期。
[59] 钱宁峰:《走向“计算法学”:大数据时代法学研究的选择》,《东南大学学报(哲学社会科学版)》2017年第2期。
[60] 邓矜婷, 张建悦, 同上脚注49。
[61] 于晓虹, 王翔, 同上脚注51。
[62] 于晓虹:《计算法学:展开维度、发展趋向与视域前瞻》,《现代法学》2020年第1期。
[63] 在英文世界,谈到ComputationalLaw的时候,多半沿用法律信息学(Legal Informatics)的概念。比如,斯坦福大学的教授认为:计算法学是一种自动化法律推理的方法,重点关注经电子媒介的且语义丰富的法律、法规、合同条款和商事规则。参见:NathanielLove & Michael Genesereth, Computational Law, Proceedings of the 10th internationalconference on Artificial intelligence and law 205 (ACM Press Bologna,Italy 2005). 匹兹堡大学的Ashley教授在其一份教学大纲中主要关注了人工智能的法律推理(Legal Reasoning)与法律信息萃取与处理(LegalInformation Retrieval, Information Extraction, and Text Processing),参见:KevinAshley, Teaching Law and Digital Age Legal Practice with an AI and LawSeminar, 88 Chi.-Kent L. Rev.783 (2013). 但是MIT Computational Law Course里面同时包含了计量、定量、法律推理与信息萃取等。
[64] 黄泽敏:《案件事实的归属论证》,《法学研究》2017年第5期。
[65] 张妮,杨遂全,蒲亦非:《国外人工智能与法律研究进展述评》,《法律方法》2014年第2期。
[66] Kevin D. Ashley, Artificial Intelligence and Legal Analytics:New Tools for Law Practice in the Digital Age (2017).
[67] Id.
[68] 第八届全国社会媒体处理大会:《SMP2019“中国法研杯”中文法律阅读理解比赛》(http://conference.cipsc.org.cn/smp2019/fayanbei.html )。
[69] “智慧法院”主要可以达成四个目的:信息的电子化、数据化;办案辅助系统的智能化;实体裁判的预测和监督;建立统一的电子化证据标准。参见:左卫民,同上脚注16。
[70] 程金华:《人工、智能与法院大转型》,《上海交通大学学报(哲学社会科学版)》2019年第6期。
[71] 何帆:《AI时代的法律工具书应该是什么样的》(https://reurl.cc/d0On1z)。
[72] 本体论是指:在给定域中,将对象间关系和对象本身属性概念化详述,并保证这种详述清晰、正式和一般化。换句话说,本体使域中的概念明确,以便程序可以基于它们进行推理。参见:Kevin D. Ashley, supra note 66, at 172.
[73] Kevin D. Ashley, supra note 66.
[74] Hensler & Gasperetti, supra note 22, at451; Epstein & Martin, supra note 25.
[75] 王舒鸿,崔欣,姚守宇:《统计相关还是真实因果?——基于“因果推断”的新兴研究范式》,《金融与经济》2018年第8期。
[76] 舒晓灵, 朱博文, 同上脚注42, 第51页。
[77] [美]ALAN AGRESTI, [美]BARBARA FINLAY:《社会科学统计方法》,朱红兵,何丽娟 译,电子工业出版社2011年版,第310页。
[78] 同上,第311页。
[79] 王舒鸿等,同上脚注75,第22页。
[80] 梁玉成:《机器学习对实证研究的启示》,于中国社会学40年与实证社会学发展国际会议 (2019)上的演讲。
[81] 梁玉成在上述演讲中认为:通过实验获得真实因果多用于自然科学、医学等,对于社会科学家、法学家而言,研究者既不知道有哪些实验类型也不知道不同实验类型的比例。
[82] “由于总有某种无法观测的个人能力或者异质性的存在,基于观测数据的定量研究,其单方程经典回归模型系数统计显著与否,本质上只能说明该对变量在统计上是否具有关联,至于孰因孰果,以及这一关系的真正体量,却因偏误重重而无力推断。”参见:陈云松等,同上脚注32,第17页。
[83] 这些工具包括断点回归、双重查分以及倾向值匹配等。同上,第25-28页。
[84] 王舒鸿等,同上脚注75,第24页。
[85] 陈云松等,同上脚注32,第20页。
[86] 同上。
[87] 左卫民:《迈向大数据法律研究》,《法学研究》2018年第4期。
[88] 左卫民,同上脚注26,第52-53页。
[89] 王利明:《“饭碗法学”当休矣》,《法制资讯》2011年第6期。
[90] Markou, Christopher and Deakin,Simon F., Ex Machina Lex: Exploring the Limits of Legal Computability (June 21,2019). Simon Deakin and Christopher Markou (eds) Is Law Computable? CriticalPerspectives on Law + Artificial Intelligence (Hart Publishing 2020). Availableat SSRN: https://papers.ssrn.com/abstract=3407856.
[91] Id. at 33.
[92] Bart Verheij, Arguments for Good Artificial Intelligence(2018).
[93] Nicola Lettieri et al., Ex Machina: AnalyticalPlatforms, Law and the Challenges of Computational Legal Science, 10 Future Internet 37 (2018).
[94] Cioffi-Revilla, supra note 47, at 2–3.
[95] Golder& Macy, supra note 56; 祝建華等,同上脚注55.
[96] 参见:祝建華等,同上。高质量数据是指,“痕迹型数据” 是“对个体行为第一手的、客观、细致记录;其次,它往往包含时间变量,为研究行为演化提供了可能”;大数据处理的高效性远高于“劳动密集型分析”;“自下而上”是指,“由于处理能力的局限,传统的分析大多采取自上而下的演绎推理(deductive reasoning)。而计算社会科学则是从观察 (observation) 出发,总结模式 (pattern),继而验证假设并提出理论,其逻辑则是基于归纳推理(inductive reasoning)”;“非介入性”是指,“介入性方法” (例如采访、问卷等)有自我报告 (self-report) 的数据的可靠性风险,计算过程中涌现的数字痕迹有替代自我报告数据的可能性。
[97] 相反,其关注网状结构中的“交互关系”,通过预测“不相关”或消除“伪相关”,当然,在这个角度上其实际为因果关系的发现减少了工作量。参见:舒晓灵等,同上脚注42,第52页。
[98] Judea Pearl, Causality: Models, Reasoning and Inference(2nd ed. 2009).
[99] 参考序言部分, [美]朱迪亚·珀尔, [美]达纳·麦肯齐:《为什么:关于因果关系的新科学》,江生,于华 译,中信出版集团2019年版。
[100] 于晓红等,同上脚注51,第112页。
[101] [美]朱迪亚·珀尔等,同上脚注99,第325页。
[102] 可以这样想象:研究的总体可以组成一个包含时间和空间的高维复杂系统图示,其中每个个体都有联系性或无联系性,有联系性的部分用“连线”相连,若在联系性基础上有因果关系,则“连线”上标注有“有向箭头”表示先后次序和作用方向。大数据分析,在没有实验或者类实验环境下,只能描述“连线”;而大数据的生成过程分析,因为关注数据生成的先后,这种分析是“有向”的。而这里的“生成过程”正是“计算智能”(运用广义的计算机)。当然,不能否认:“大数据分析“是“大数据生成过程分析”的前提和一部分。
[103] 于晓虹等,同上脚注51,第112页。
[104] 祝建華等,同上脚注55。
[105] 于晓虹等,同上脚注51,第116页。
[106] 孟天广:《政治科学视角下的大数据方法与因果推论》,《政治学研究》2018年第3期。
[107] [美]朱迪亚·珀尔等,同上脚注99,第XVII页。
[108] 例如机器学习通过决策树(DecisionTree)等方法来预测样本类标,以模拟人类面临选择时的决策过程。参见:周志华:《机器学习》,清华大学出版社2016年版,第73-74页。
[109] 例如机器学习通过原型聚类K-Means等方法使得具有相似属性的对象聚集在一起形成子群体,方便观察子群体的特征。参见:同上,第202-204页。
[110] 可迁移性,是指得益于大数据,将基于大量不同个体、不同研究地点、不同研究条件完成的研究,从原总体迁移到新的总体,以发现新总体与原总体的不同。参见:[美]朱迪亚·珀尔等,同上脚注99,第326-330页。
[111] 尤其是缺失性命题,即所谓研究中难以通过小范围观察察觉的“灰色地带”,贝叶斯网络就是一种相对有效的手段,其使得“灰色地带”自己涌现出来,用数据“自己说话”。参见:同上,第三章。
[112] Jian Gao et al., Computational Socioeconomics,817 Physics Reports 1 (2019).
[113] Duncan J. Watts, Computational Social Science:Exciting Progress and Future Directions, 43 THE BRIDGE ON FRONTIERS OFENGINEERING 5 (2013).
[114] 他们明确提到了法学也是如此,参见:Gao etal, supra note 112, at 2.
[115] Id. at 3.
[116] Id.
[117] 比如,最早使用卫星数据的文章是关于这种数据与人口、经济活动和电力消耗的相关分析的研究,参见:C.D.Elvidge et al., Relation between Satellite Observed Visible-near InfraredEmissions, Population, Economic Activity and Electric Power Consumption, 18International Journal of Remote Sensing1373 (1997). 再比如晚近,使用街道灯光数据的研究颇为常见,参见:Tilottama Ghosh et al., Shedding Light onthe Global Distribution of Economic Activity, 3 The Open Geography Journal147 (2010).《科学》杂志上甚至发表了用卫星图像和机器学习的结合来预测贫穷的文章,参见:NealJean et al., Combining Satellite Imagery and Machine Learning to PredictPoverty, 353 Science 790(2016).
[118] 较为著名的例子是:有学者通过商业公司提供的移动电话的通话记录查明了特定空间范围人口流动的样态。参见:JoshuaE. Blumenstock, Inferring Patterns of Internal Migration from Mobile PhoneCall Records: Evidence from Rwanda, 18 InformationTechnology for Development 107 (2012).
[119] 在中国,有学者收集了2009年至2012年近2亿微博用户的注册位置信息,并探讨了在线活动与社会经济指标之间的关系。具体而言,在线活动是根据注册用户数估算的,社会经济指标是指常住人口数、GDP和人均GDP。参见:Jin-HuLiu et al., Online Social Activity Reflects Economic Status, 457 Physica A: Statistical Mechanics and itsApplications 581 (2016).
[120] 有学者使用中国河南省内的裁判文书作为数据来源进行了话题模型(Topic Modeling)等机器学习、自然语言处理的操作。参见:BenjaminLiebman et al., Mass Digitization of Chinese Court Decisions: How to UseText as Data in the Field of Chinese Law, UCSan Diego School of Global Policy & Strategy, 21st Century China CenterResearch Paper No. 2017-01; Columbia Public Law Research Paper No. 14-551Jan. 1, 2017. Available at https://scholarship.law.columbia.edu/faculty_scholarship/2039.
[121]Laura G.Pedraza-Fariña & Ryan Whalen, A Network Theory of Patentability, 87 U. Chi. L. Rev. 63 (2020). Availableat https://papers.ssrn.com/abstract=3347365.
[122] 关于使用微博数据对我国“隐私权”概念进行话题模型分析,参见:ElaineJ. Yuan et al., “Privacy” in Semantic Networks on Chinese Social Media: TheCase of Sina Weibo, 63 J Commun1011 (2013).
[123] Gao et al., supra note 112.
[124] 孟天广,同上脚注106,第36页。
[125] 尤其指随机对照试验(randomizedcontrolled trial,简称RCT),在因果关系科学意义上,其主要通过引入“Do算子”体系来体现干预(原因)的作用。参见:[美]朱迪亚·珀尔等,同上脚注99,第七章。
[126] 悖论几乎都体现了“某种与因果直觉有关的冲突”,“人类的直觉是根植于因果的,而不是根植于统计和逻辑的”。参见:[美]朱迪亚·珀尔等,同上脚注99,第XXV-XXVI页。
[127] [美]马修·萨尔加尼克:《计算社会学:数据时代的社会研究》,赵红梅,赵婷译,中信出版集团2019年版。
[128] “反事实”就是和我们能够观测到的现实情况相反的一种状态,由Rubin于1980年提出。参见:王舒鸿等,同上脚注75,第24页。
[129] [美]朱迪亚·珀尔等,同上脚注99,第XXVII页。
[130] Law as Data: Computation,Text, and the Future of Legal Analysis (Michael A. Livermore & DanielN. Rockmore eds., 2019).
[131] 4V指,Volume(大量) 、Variety (多样) 、Velocity(高速) 以及Value (价值)。
[132] Benjamin Alarie, The Path of the Law: Towards LegalSingularity, 66 U. Toronto L.J.443 (2016).