当前位置:首页 > 文献资源 > 论文著作 > 理论推演
丁利 | 制度激励、博弈均衡与社会正义——探寻一种综合的纯粹法理学
2026年04月20日 【作者】丁利 预览:

【作者】丁利

【内容提要】

制度激励、博弈均衡与社会正义——探寻一种综合的纯粹法理学



*作者 丁利

中山大学法学院教授



摘  要:本文探讨现代社会科学的统一分析框架对法学理论的建设性推进。我们展示了个体理性决策与博弈论,社会选择与机制设计理论的主要思想,并初步讨论了它们在法律问题中的运用。其核心观念为:法律与其它社会规范一起为组成社会的所有行为主体提供了制度激励,立法者任何合乎社会正义理念的目标,只有作为他们在社会博弈中的均衡行为的结果,才能得到合理实施。

关键词:法律;社会正义;制度激励;博弈均衡


引言


几乎与人类文明的文字记录同步,作为社会组织形态的主要结构之一的法律制度的历史至少有几千年,法学理论作为其衍生物并反哺之的历程也一样久远。法律和相关的法学理论,一直随着社会环境、技术和知识等因素的变迁而处于不断演进的过程中。现实社会中各种形态的冲突与合作问题,不停地对解决它们的制度建构提出挑战;而各种理论的碰撞与交融,也使得我们对法律制度问题的认识和解答不断的革新和完善,从而不断的深化和统一法学理论。

现代社会,由于技术的进步和人们交往的频繁,越来越成为一个不可分割的整体;而现代社会科学的发展,一个重要的趋势就是横跨不同学科追求世界的统一性所必然要求的理论普适性。本文的旨趣即是,我们多大程度上可以发展一种简洁、统一、整体的研究框架来分析人类社会中的法。这种分析框架,除了为研究者提供形式上和谐的美感和智力上的愉悦感,还应该使其能够以简单而深刻的观念洞察复杂世界的本质。

已经过去的二十世纪,既是数学和自然科学的又一个黄金时代,也是社会科学的繁荣昌盛时代。其中,按照诺贝尔经济学奖得主阿马蒂亚·森的说法,博弈论(game theory)和社会选择(social choice)理论是第二次世界大战以后(我个人愿意去掉这个修饰词)社会科学最重要的成果。所以,本文探寻的是,基于博弈论与社会选择理论为现代社会科学所提供的一个关于人类社会组织及其制度结构的分析框架,法律运行的内在逻辑和机理是什么,相应的法学理论可以得到何种新的阐释、组织和拓展,我们也由此探讨一种综合的纯粹法理学的可能性。

那么,为什么我们如此强调博弈论在法学以及整个社会科学中的重要性?以社会正义为价值关怀的法学,与被视为“社会物理学”的研究策略性互动中理性决策行为的博弈论,二者之间有着什么样的关联?博弈论的理性观念和策略均衡等概念在什么意义上是对人类行为的合理描述工具?法律是设计出来的,还是进化出来的?在一个变动不居的世界里,不断适应环境而进化的人类社会应该如何设计制度,以维持必要的秩序并生存、繁衍和发展?


一、现代社会科学的统一分析框架

作为二十世纪最重要的社会科学成果之一,由冯﹒诺依曼、摩根斯顿等人所开创,诺贝尔经济学奖得主纳什、豪尔绍尼、赛尔顿、奥曼、谢林、夏普利、罗斯为代表的大批杰出的数学家和社会科学家发展与拓展的博弈论,全面地影响着人们对人类社会运行模式和制度建构的思考。由于博弈论的抽象性、统一性和普适性,它被认为是一种“社会物理学”和社会科学的语言。随着其理论体系的牢固建立和成果的不断涌现,它在经济学、政治学、法学甚至生物学等学科中得到了越来越广泛的应用,并且借法律经济学的兴起几乎是不可避免地进入法学领域。虽然具体的学科交叉融合的道路是曲折多变的,而从所有社会科学的本质内核来看,实际上是水到渠成、瓜熟蒂落的逻辑必然。

所有社会科学必须要解决的是具有内在关联的三类问题:实证性或描述性问题,行为理论,描述、解释甚至一定程度上预测社会如何存在运行并产生相应结果的实证理论;规范性或价值判断问题;以及,在前二者的基础上所谓“改造世界”的政策主张和制度建构。让我们从一个立法者或制度设计者的角度来思考,如果他需要采取一种法律规范来约束某个社会场域中人们的行动并调整相应的社会关系,那么此立法者必须遵循一个解决如下问题的基本逻辑:在所有技术可行的法律规范的范围内,每种法律规范(与其他制度相结合)所决定的博弈规则为人们提供了相应的行为激励,他们在此激励和知识与信念的指引下进行社会博弈最可能产生什么样的均衡结果,对这些结果进行基于社会正义的合理性评价,根据最合理的结果选择相应的法律规范。

经博弈论改造过的微观经济学,业已发展成为一个关于人类社会中理性选择的行为模式及其激励(incentive)制度的一般性理论,并借助一个三位一体的结构,即如图所示的Hurwitz-Mount-Reiter三角,至少部分地实现了社会科学的统一性。正如因机制设计(mechanism design)理论与赫尔维茨和马斯金一起获得诺贝尔经济学奖的迈尔森所言,今天我们可以更宽泛地把经济学定义为 “对所有社会制度中的激励(incentive)的分析”,从而“社会科学的功能性目标并非仅仅在抽象意义上预见人类行为,而是分析社会制度和评价关于制度革新的建议” (Myerson, 1999, 1068-9)。


把这个分析框架及其工具方法应用于法学、政治学或经济学的问题,我们就看到,博弈论描述了人们在一个或一束制度(博弈规则)下是如何做出行动决策的,在不同的环境中这些行动相应导致了什么社会结果;社会选择理论则集中于分析社会如何逻辑一致地从个体偏好中得到合理的社会目标,这个过程中应该体现哪些价值标准以及如何解决不同价值准则之间的冲突而实现其折中——法学中的话题叫社会公平或正义;而机制设计理论探寻的则是,一旦我们确定了社会目标,那么可以设计合理的制度(法律可能是其中最重要的),使得在这个制度下人们博弈的结果尽量处于或接近社会目标集合,即,通过制度激励下的各个行为主体的博弈均衡来实现社会正义。或者说,如果我们根据博弈论的思想知道了不同制度激励下社会博弈的均衡结果,而社会选择规则对这些结果有一个是否合乎公平正义等价值标准的合理性评价,那么反推回去我们就知道了应该设计和选择什么样的社会制度。甚至,从经验和历史的角度,我们也能以此解释那些稳定下来的制度是如何被设计与选择并随着环境和技术的变化而演变的。


由此,我们也得到一个社会科学的统一分析框架(上图)。其中个体理性决策(individual rational decision)与博弈论是实证性或描述性、解释性的理论,而社会选择理论则是规范性的理论,机制设计理论可以看作二者所派生的,进一步的拓展则有制度变迁理论。其中,最基本的观念是:制度设计者或立法者的社会目标,只有在法律和其它社会规范所共同提供的制度激励下,经由理性的人们在社会博弈中的纳什均衡(或其精炼)策略行为,才能够得以实现。那些没有在理性人的预设下和博弈思想指导下设立的法律,难以经受理性的利己主义者和机会主义者的冲击与时间的考验,就会逐渐成为空中楼阁和沙滩上的建筑。规范意义上合理的立法,为各个社会主体提供恰当的制度激励,并通过他们的博弈行为的策略均衡,实现社会正义目标。由于纳什“表明任何其它博弈理论都可以被化归到均衡分析”,他“把社会科学带入到一个新世界,那里可以发现一个研究所有冲突与合作局面的统一分析框架” (Myerson, 1999, 1074)。这个框架,使得我们可以整合(integrating)的眼光考察法律的设计、实施和演进。环境、技术与制度一起形成人类社会组织的博弈规则,而制度包含两个互补的方面:激励及其稳定性,柔性或可进化性。前者强调规则的可实施性,后者强调适应环境变化的演进。


二、理性决策与博弈论


任何法律制度都必须关心的问题是:在这些法律规范之下,人们是如何做出行为选择的,会导致什么结果出现?社会科学的统一性要求我们以一个简洁而统一的观念解释社会中人们的行为模式,而理性只能是唯一合格的候选者。因为从最弱的意义上讲,理性只是意味着人们行动选择的某种一致性,这种一致性只是我们作为研究者赋予我们的研究对象一定的规律性(regularity)的自然要求,这样理解的“理性”包括了现代文献中有界理性(bounded rationality)的范畴,甚至在“好像是”(as if)的意义上把那些长期性和重复性的“不理性”行为也涵盖进来。基于理性观念的个体理性决策理论和博弈论对回应此问题提供了基本的参照。

博弈论,特别是作为其核心的非合作博弈论,包括个体理性决策理论、表示(representation)理论和解(solution)理论三部分。个体理性决策理论处理的是作为博弈论基本要素的一人决策场景。表示理论研究如何把一个多人互动的局面的最重要的成分刻画出来。解理论则对每个博弈都给出博弈者们应该如何行动的建议。

对于简单而基本的个人决策(或曰人对自然的博弈)问题,又可根据行动与结果之间的关系而区分为确定环境和随机环境两种情形。确定环境下,决策者的行动与结果之间有一一对应的关系,决策者要做的,只是根据一个选择规则在任何特定场景给定的可行行动集合中决定行动选择。而这个选择规则可以看作是由决策者在行动(实际上是结果)集合上的理性偏好所产生的。理性的偏好满足完全性和传递性。选择规则应该满足在不同的共时性场景之间的一致性如弱显示偏好公理,这种一致性有时也被解释为决策者在历时性场景间的偏好不变。

一个理性的偏好,如果也满足连续性,则可以用一个效用函数来刻画。理性的一个基本内涵为,决策者按照效用函数最大化的方式选择自己的行动。效用函数包含了生理、心理、文化等很多因素,决策者对这些因素做了综合权衡 (trade-off)以后对不同的结果据以形成评价和比较。甚至,效用函数的不同形式能够用来刻画利己主义、利他主义和妒忌型人格,所以在具体场域的应用中有很丰富的多样性和复杂性。

考虑到效用函数的生理学基础,我们把它看作是进化的产物,正如我们的器官及其功能是我们在长期生存竞争中的产物一样;如果它们对我们作为生命体的生存繁衍不利,那么足够长的时间内它们就会被无情地淘汰出局,而运气除了在关键的节点上以外很难长期有效。所以经过长期进化而存续下来的行为模式,一定是与其它行为模式比较有其相对高的生存机会。一个生命体在某些方面的严重弱点(譬如性格),只有其它方面特别优异才能弥补,此时生存策略是以一个复杂的行为模式表现出来的。参见后文关于演化意义上的均衡化部分的讨论。

对于一个行动可能产生多个可能结果的随机环境,文献中通常区分风险和不确定性两类。前者指有一个客观概率分布描述这种随机性,而后者则每一个决策者都可能持有其主观信念从而具不同的概率分布。在合理的预设条件下,理性决策理论的一个重要结果即是,决策者按照期望效用函数最大化的方式选择自己的行动。

这些思想实际上有着非常古老的渊源,至少在自然法学派和社会契约论学者那里就非常明晰地展现并运用于各类政治法律问题的分析和思考中。霍布斯在《利维坦》中有几处表达了与个体理性决策理论相近的思想:“著作家们一般称之为自然权利的,就是每一个人按照自己所愿意的方式运用自己的力量保全自己的天性——也就是保全自己的生命——的自由。因此,这种自由就是用他自己的判断和理性认为最适合的手段去做任何事情的自由。…自然律是理性所发现的诫条或一般法则。这种诫条或一般法则禁止人们去做损毁自己的生命或剥夺保全自己生命的手段的事情,并禁止人们不去做自己认为最有利于生命保全的事情。…人类根据天性会‘两害相权,取其轻者’。这是大家都承认的一条真理”。

贝卡里亚在《论犯罪与刑罚》中指出,“人们情愿忍受的是较小的不幸,如果这个原则在一个社会不是确定不疑的,这个社会就不能被称为合理的”。而理性的潜在犯罪者会权衡惩罚的严厉程度与受到惩罚的概率,“只要刑罚的恶果大于犯罪所带来的好处,刑罚就可以收到它的效果。这种大于好处的恶果中应该包含的,一是刑罚的坚定性,二是犯罪既得利益的丧失”。“对于犯罪最强有力的约束力量不是刑罚的严酷性,而是刑罚的必定性”。因而,“预防犯罪比惩罚犯罪更高明,这乃是一切优秀立法的主要目的”。这些思想可以按照如下方式做出合理的重新阐释。记不犯罪的保留效用为0,犯罪后被发现受到惩罚的概率为p,惩罚力度为F,犯罪得逞所得为X,刑罚的有效性取决于 0 > (1-p)X-pF,即 F > X(1-P)/P,增加F和p都有助于此式的成立;但当X很大时,其边际效果降低,强化刑罚的严峻对F的增加程度有限,而增加p的效果则要显著得多。前些年有一类典型的交通事故引发故意杀人的案件。记被发现故意杀人的概率为q,死刑的惩罚力度为C,死亡赔偿为A,伤害赔偿为B。驾驶者故意杀人当且仅当 B > A + qC 成立。初看起来,A > B,且C > B,上式不可能成立;但是,在现实社会中,由于存在再磋商的可能性,B会变得比法庭裁决的额度大得多,以至于事实上会出现 B > A,此时如果q不是很大,则会出现 B > A + qC。当q受到技术因素的限制而取值不能太大时,让死亡赔偿C足够大才是合理的立法选择。

将个体理性决策理论推广到多人世界,有两个方向。如果要将个人偏好或价值判断,集结(aggregation)为社会整体的偏好或价值判断,而集结规则或程序须满足一些合理的性质,则为社会选择理论所关注的问题;如果每个人的决策结果不仅受自然因素的影响,还取决于其他人的行动,所以他决策时还须考量对手的行动选择以及作为选择基础的信念,即他们处于策略性互动的局面中,此为博弈论的研究范畴。

在现代社会科学中,博弈论是研究存在冲突与合作的群体互动中理性决策的基本工具。它分为非合作(non-cooperative)博弈论与合作博弈论两个有关联的分支。两者的区别在于,合作博弈假设博弈者之间的结盟和形成有约束力的行动协议是能够自然实现的,而非合作博弈必须对结盟(coalition)是如何形成的以及他们的成员是如何选择加入的给予细致的解释。在此意义上非合作博弈被认为是更根本性的,而它们之间可以通过纳什纲领(Nash program)而联结起来。但是,对于那些结盟特别容易形成的场景,合作博弈不失为一种简捷的研究和建模工具。

非合作博弈有两种基本的表示形式,即展开型(extensive form)与策略型(strategic form)。展开型表示描述了博弈者(包括特殊的博弈者自然)们的行动顺序,每个人行动时知道什么(以及对那些不确定的自然行动的信念),能做什么,它们的行动共同决定的结果以及每个博弈者对结果的偏好或效用等。原则上,展开型博弈提供了一种能够描述几乎所有包含冲突与合作的社会现象的语言。这套描述性的语言,加上一系列具有普适性的解理论,使得博弈论成为现代的社会物理学。策略型,可以看作是由展开型引申出来得到,包含博弈者集合,每个博弈者的行动集合以及建立在行动集合上的支付函数。一个博弈者的某个特定行动,即纯策略,给出了他在每一个信息集(行动机会)处如何行动的完整方案。一个合理的解理论,对每个博弈者都给出一个行动方案的建议或预见,并且提供一套与行动方案相互制约又支持的信念系统。

策略之间的关系,是博弈论解理论的核心关注之一。一个博弈者的某个策略是对其对手(们)的某个策略(组合)的最优反应,如果前者在所有的策略中带来最高的期望效用。博弈论最重要的解概念纳什均衡(Nash equilibrium),即是博弈者的策略组合之间互为最优反应,此时每个博弈者在给定对手的策略的前提下没有激励偏离自己的策略。纳什均衡是一个合理的解应该具有自我实施(self-enforcing)性质的必然要求,后者意味着,真正合理的行动方案被推荐给博弈的每个参与人,他们都有动力按照建议执行而不是违背之。博弈论中几乎所有合理的解概念都可以看作是纳什均衡的精炼或扩展,而数学家纳什的经典工作保证了那些具有社会科学涵义的有限博弈都至少存在一个纳什均衡。当然,纳什均衡的存在性,要求建立在混合策略(在纯策略集合上的概率分布)之上。混合策略意义上的解一方面是博弈者的行动方案,另一方面代表了博弈者对其对手的行动的主观信念,在学习和进化意义上也可以被解释为大量群体中每个人使用纯策略而表现出的频率分布。

我们也可以用一个囚徒困境博弈的翻版来说明纳什均衡。假想在一个法治不是特别健全的社会里,原被告双方打一场100万的官司,每个人都可以选择以30万金额贿赂法官或不贿赂(简单起见,我们假设只有这两种行动)。如果他们都不贿赂,那么法官会给出一个基本公正的裁定,原告60万,被告40万;但如果有一个人贿赂而对方没有,自然是没有贿赂的倒了大霉,一分也拿不到;当然如果两个人都贿赂了法官,那么两下里扯平,他该怎么判就怎么判。这个博弈中的原告和被告,都有一个占优策略,即不管其对手如何选择,他选择贿赂带来的结果要更好。所以,博弈的结局就是,他们两个都会理性地选择贿赂法官(这个行动组合也构成纳什均衡),这就出现“大盖帽,两头翘,吃了原告吃被告”的结果。这个博弈也提示我们,理性的人玩出的结局也许是集体“非理性”,因为(不,不)的结果帕雷托优超于(贿赂,贿赂)。


 

另外一个例子是投票理论中有名的“特权的灾难”。在一个三人委员会中,甲乙丙三个人对三个备选方案a、b、c的偏好如下所示:


投票的规则是:每个人秘密写票但背后署名;如果三个备选方案a、b、c中的任一个获得多数则胜出;但是甲有一定的特权,即如果三人意见不一致时以他的为准。首先注意到,三个人都不会选择自己最不喜欢的。这个博弈中c是丙的弱占优策略,即他选择c永远不会比选择a更差,但有些情况下会更好。由于预见到丙会选择c,而选择自己最喜欢的b只会使甲选择a而利用其特权使之出线,但恰恰a是乙最不喜欢的,所以只能乙和丙一样选择c,博弈的结果是享有特权的甲最不喜欢的c出线。当然,这个博弈中甲的特权不够大,后面我们会进一步考察甲能决定投票程序的“立法博弈”。

卢梭在《论人类不平等的起源和基础》中有这样一段经典表述:“如果大家在捕一只鹿,每个人都很知道应该忠实地守着自己的岗位。但是如果有一只兔从其中一人的眼前跑过,这个人一定会毫不迟疑地去追捕这只兔。当他捕到了这只兔以后,他的同伴们因此而没有捕到猎获物这件事,他会不大在意,这是无须怀疑的”。博弈论学者把它形式化为如下著名的“公鹿狩猎”(Stag Hunt)博弈。


此博弈中存在两个纳什均衡,即(鹿,鹿)和(兔,兔)。粗看起来,前者中两个人的支付更高,似乎自然应该成为博弈的解。但是,后者对决策者而言更少风险,如果对手变换策略他的支付不会变少。简单的计算可知,每个博弈者只有在相信对手至少以的概率抓鹿时才愿意选择抓鹿的行为。易言之,如果他认为对手抓兔子的概率不低于八分之一,那么自己就应该去抓兔子。这两个纳什均衡,各有利弊、不分轩轾,能够通过所有关于纳什均衡的精炼的合理标准。在这样的均衡中做出进一步的筛选以协同博弈者的行动,谢林所提出的“焦点效应”特别重要。某些不直接影响博弈支付的信息,如立法者的宣扬,历史文化传统或仅仅某个特殊信息,就可能使博弈的实际进行趋向于按照某个均衡行为模式进行。另外,后文关于均衡化的演化观念也对博弈会如何进行并稳定在哪个均衡模式上特别重要。


并非所有的博弈的所有纳什均衡都是合理的。我们再看一个展开型表示的讨债博弈(上图)。甲从乙那里借过一千元钱,因当时没打收据故想赖账。如果乙打了赖账的甲,虽然会把甲打得很惨解了恨,但也会被甲告到派出所,赔付医疗费并被拘留几天(每个支付向量中第一项是甲,第二项是乙)。根据逆向递推的思想,乙只好忍了,从而甲就不会还,这合乎赛尔顿提出的子博弈完美均衡的思想。而另一个纳什均衡“甲还,因为他如果赖账乙就打人” 中乙打人是不可置信的威胁。在博弈中,一个参与人某个行动或某个信号所传递信息的可信性是策略性问题的关键,契约问题尤其如此。


这个博弈中的乙是个普通人,但我们都知道现实中还有“不蒸馒头争口气”的二愣子,解恨使他的效用由前例的-50变成上图中的正50。如此小的一个变化就使得博弈的进行大相径庭了,但不变的是“博弈之道”:逆向递推的思想使我们知道合理的均衡是甲还钱,因为乙打人的威胁是会兑现的。

考虑一个更复杂一点的情形,它是豪尔绍尼所谓的不完全信息博弈的贝叶斯建模方法的简单应用。自然(上帝或者老天爷)以概率p让乙成为二愣子,以1-p的概率成为普通人,乙自己当然知道自己是什么人,但甲不知道自然的行动。甲只能计算自己赖账带来的期望支付,拿它和还钱得到的0做比较。


那么,简单的计算便可发现,在相应的完美贝叶斯均衡解中,哪怕是普通人乙都有可能浑水摸鱼。只要0>1000(1-p)-10000p,即甲相信乙是二愣子的概率p>1/11,他就要乖乖还钱。注意到,这个概率值与乙打人给甲带来的支付有关。如果把打人换成绑架甲的孩子,那么微不足道的概率就会使甲屈服。这个例子也可以用来解释虚张声势为何可能达到目的。

博弈者会按照如纳什均衡或其精炼诸如此类的解理论做出决策,或者说我们按照纳什均衡等解概念预见一个博弈最可能出现的结果,其理由何在?有两种互补的合理化(justification)解释,即Binmore (1987, 1988)所谓的演绎的(deductive)和演化(evolutive)的均衡化途径(equilibrating process)。

演绎的观念即,如果博弈结构和博弈的解理论是博弈者之间的共同知识(common knowledge),那么具体的解则可以看作是博弈者在一定的知识和信念基础上推演出来的。通过对博弈论解概念的知识论分析,以模态逻辑特别是克里普克可能世界语义学的方法描述博弈者的知识和信念(belief)系统,本身与数理逻辑和理论计算机科学的发展交织在一起,已经形成一个相对成熟的互动知识论(interactive epistemology)的分析框架。基于此,经典博弈论提供了一个演绎意义上的均衡化过程。社会制度结构是每个博弈者之间的共同知识或共同信念,并且他们共享同一个解理论,从而整个制度阶梯以及在制度约束下的人们的行动(在理想状态中)都是自我实施的。

在这样一个理想世界里,所有博弈者对整个博弈局面的理解是一致的,也具备足够的智能进行所有必要的计算以发现别人也能发现的均衡。所以,博弈一定是按照均衡路径进行的。反映在法律现象里,没有博弈者会采用非均衡策略也就几乎不会有纠纷发生,除了小概率的特殊类型;发生纠纷也未必通过诉讼解决,因为至少与裁决结果一样的庭外和解对双方要更有利一些。但在现实世界里,大量纠纷和诉讼的发生就意味着,人们往往是处在趋向均衡的过程中。

故而,我们需要均衡化的演化观念(Mailath, 1998)给以互补的解释,即,那些看似需要很高理性的行为策略,可以看作是人们在重复出现的场景中经过长期学习和进化后的稳定结果,或统计意义上稳定的行为分布。如神取道宏所指出,在现代文献中,学习和进化被模糊地加以区分。关于学习的研究通常假设在一个固定匹配博弈中博弈者可以计算出最优反应,并更新关于对手的策略的信念;而进化论的研究则并不必然假设博弈者具备最优化的能力,主要分析合理行为通过试错(trial and error)和突变、模仿和调整而在博弈群体中选择进化。这样的区分意味着,进化可以看作仅仅要求最弱意义的理性,通常是仅仅具有根据过去的经验和观察调整相对成功或失败的行动被选择的机会的能力。总之,在进化和学习中核心的东西在于,更成功的行为模式会更持久并传播开来,所以进化论中“适者生存”可以如道金斯所言推广到“稳定者生存”。

这些学习和进化理论,运用了动力系统(如复制者动力学)和随机过程(如马尔科夫过程)等数学工具,探讨策略(基因)的模仿(复制)、筛选与变异的复杂过程,在稳定或统计意义上为各种经典解概念下的理性行为(包括均衡行为)提供了另一种合理化论证。特别地,针对纳什均衡特别是其精炼进化稳定策略,有众多结果刻画了在什么条件下,均衡解可以看作是进化和学习的收敛(即动力系统中的动态稳定性)或统计意义上的近似(即随机过程中的随机稳定性),即Young(1998a,662)所谓的“高理性的解概念能够从低理性的环境中涌现,如果我们赋予这个过程足够的时间进化。换句话说,社会反馈机制可以取代在个体方面的知识和推理能力的高水平。” 易言之,那些适应环境而存续下来的行为模式,就好像是被理性算计或设计出的;甚至,像进化稳定策略,能够逐出那些小概率的变异或侵入行为从而具有更强的稳定性,从而在历史和现实中也就更可能被观察到。这个结论还可以推广到社会制度上,那些经受了长期历史检验而持续稳定下来的制度,虽然是试错、学习和进化的产物,却好像是被理性地精巧设计出来的。当然,这并非意味着我们认为每时每处的博弈结果都是受均衡行为模式所左右,而是强调了那种使博弈进行趋向均衡的内在力量。人们策略选择的逻辑和机理使得我们研究者有理由从统计意义上认为,一个被参与人所充分理解的博弈的结果是围绕均衡的振荡。这颇合乎印度统计学大师阿劳的名言:“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的基础上,所有的判断都是统计学”。

最后值得指出的是,知识论的均衡化过程,假设博弈者共享对他们所生活的世界的同一个描述模型,一如演进论的均衡化过程预设同一个博弈被重复进行,由此得到的行为模式很大程度上只能被解释为是对一个进化和学习、交流过程的极限而非过程的刻画。并且,在经典博弈论所描述的世界中,古往今来一览无余,一切制度都被安排的井井有条,它们所形成的整个制度阶梯是自我实施的,也就几乎不存在制度变迁的可能性与必要性。为了容纳一个变动不居的世界图景,我们必须选择一个主观博弈(subjective game)框架,放弃博弈者对世界有共同认知的理论预设。我们可以把社会博弈结构看作是对社会运行的所有可能性的客观的物理描述(研究者或观察者意义上),而每个博弈者对此结构只能有一个局部或主观的认知,对不确定的自然状态持异质性信念,并且指导其行动的解理论也可能不同,他据此主观博弈的均衡策略选择自己的行动。由此,研究的重点不仅仅是均衡行为模式,还更强调趋向均衡的过程中博弈者们的认知与信念的异质性与复杂性。这是一个建立在经典博弈论的基础之上又更一般的研究框架。


三、何种公平正义?


公平正义,作为法律的核心价值,在历史和现实中一直是众说纷纭。现代社会科学,尤其是社会选择理论,试图给出一种系统、精致的处理。这种处理,未必是对问题给出一劳永逸的答案,而是恰当地界定问题,并给出在不同逻辑前提下的相应结论。这样,即使两个人的价值立场不同,但也能清晰地发现分歧所在,达到“君子和而不同”。Barry (1989)总结讨论了各种各样的正义观点,并给出两种重要的区分:作为互惠的正义(justice as mutual advantage)与作为不偏不倚的正义(justice as impartiality)。按照前者,“正义只不过是我们在他人的合作(至少是容忍)乃能够实现我们之所欲的必要条件的那些场合所奉行的理性的审慎” (Barry, 1989, 6),其代表人物有霍布斯和休谟;而按照后者,“一个事物的正义状态就是人们能够接受的那种,不仅在他们不能理性地期望得到更多的意义上,而且在他们不能合理地诉求更多的意义上” (Barry, 1989, 9),其代表人物有亚里士多德、洛克、卢梭和康德。Barry (2000)更赞成的是不偏不倚的正义,或者在社会选择理论中流行的基于“中立观察者”(impartial observer)立场的正义。我们在此意义上仅讨论与此相关的两种最基本的正义标准,即功利主义和罗尔斯的差别原则。

从结果主义的立场,如果我们关心实体正义,那么首先要给出每个人对不同社会结果的偏好判断和效用评价,然后根据合理的原则综合这些判断和评价以得到一个(组)社会目标。这些原则之间的协调性特别关键,而在它们具有内在紧张和冲突的情况下如何进行合理地权衡折衷,这些都构成社会选择理论的重要主题。我们讨论几个关于社会选择规则的重要性质。

一个社会选择规则应该遵循的基本标准是帕雷托效率。我们说一个结果帕雷托优超另一个结果,是指从后者到前者的转换中没有人受损,但至少有一个人受益。在社会科学意义上,帕雷托优超,与纳什均衡一样,属现代社会科学最重要的不朽概念之列,因为它抓住了从组成社会的全体角度评判两个结果优劣的最基本的尺度。如果两个结果之间存在帕雷托优超关系,我们很难从直觉上否认前者好过后者。当然并非任何两个结果之间都具有帕雷托优超的关系。记四个结果a(30,10)、b(70,0)、c(0,70)、d(60,40),显然d帕雷托优超于a,但b和c就都与a之间没有帕雷托优超关系。利用帕雷托优超性质,我们说一组社会结果中的某个(些)元素是具有帕雷托效率的,当且仅当不存在一个帕雷托优超于其的其它结果。这样,我们就在任何有限的社会结果中总能找到那些具有帕雷托效率者。换言之,我们总能找到一组具备基本的好性质的结果。前述四个结果中b、c、d就是具有帕雷托效率的,注意到前两者不帕雷托优超于任何结果,但也不被任何结果所帕雷托优超。此例恰恰也表明,帕雷托最优的结果,其问题不在于可能不存在,而是往往太多了,所以我们必须引入更强的标准,以做出更合理的社会选择。

如果我们假设社会中的每个人处于一面“无知之幕”的后面,对自己在每一个可能的社会结果中处于何种地位不能确定,那么他合理的信念是认为自己会处在任何一个人的处境上。他希望社会按照一种伦理原则所选择的社会结果,是其所期盼的最优的结果,即他按照不确定环境下的决策理论所愿意选择的。这样,伦理判断问题就转换为不确定环境下的理性决策的准则问题。此时,有两个不同的方向。

如果决策者认为他会以相同的概率处于任何社会角色的处境上,并且他按照期望效用评价一个结果,那么他所希望出现的就是那些带来最大期望效用的结果,在数学上,这就等价于一个边沁型的社会选择规则,即按照社会总效用的最大值做出选择。这就是豪尔绍尼所一贯主张的功利主义正义观。

如果决策者是一个绝对风险回避的人,或者一个极端悲观主义者,他认为在任何社会结果中自己就是那个处境最差的人,那么他当然希望自己的处境是差中选优,伦理上这对应着一个最大最小型或词典式最小型的社会选择规则,首先考虑处境最差者中相对大的,如果有两个以上相同则考虑第二差者,依此类推。这就是罗尔斯的差别原则。

此二者,按照社会选择理论的一个重要定理,几乎是满足一组直觉上合理性质的绝无仅有的两种公平正义观念。他们都合乎帕雷托效率标准,所以正义建立在效率的基础上;都合乎匿名性,即组成社会的每一个人都受到平等待遇,合乎中立观察者的应有之义;都借助于一种将心比心、推己及人式的人际间效用比较,只不过功利主义要求基数性比较,而差别原则只要求序数性比较。当然,差别原则合乎哈蒙德提出的公平公理,从而使其具有一种平等主义的倾向;而功利主义则允许强者得到更多,只要在数量上能够超过弱者效用的减少。极端情况下,二者完全是大相径庭,如结果x(2,3)和y(100,1),功利主义倾向于后者,而差别原则得到前者。诚然,有时二者会结论一致,如前述四个结果中,两种正义标准都会选中d。

但在实践中,特别是在立法问题上,也许功利主义被使用得更广泛。当然,如豪尔绍尼等人所特别强调的,从规范性上只有规则功利主义而非行为功利主义才是值得考虑的。行为功利主义,关心的是一时一地一事,是一种局部的短期的视角;而规则功利主义,则是强调整体的长期的考量,把选择一种行为的合理性从其作为一种规则所带来的得失利弊来权衡。孔子对其弟子子贡救回被卖作他国奴隶的鲁国人而不收奖金不以为然,却对子路救溺水者接受回报认为恰如其份,即是基于此种立场,因为子贡的行为导致很多潜在的愿意救人而收取奖金的人只好不作为了。

最后,我们有必要指出两点:其一,此节所讨论的公平正义尺度,很大程度上是我们用来论证或说服别人时的规范标准,强调的是对结果的社会评价。这与对具体行为本身的内在愿望是否合乎道德或值得褒扬的评价不完全是一回事,因为后者涉及复杂的因果链条。其二,也许如豪尔绍尼(Harsanyi, 1977, 627)所言 “伦理学乃是理性行为的一般理论的一个分枝”,而理性行为是那些经受了进化检验的均衡策略行为,所以美德是为基因延续和种族繁衍服务的,这也是威尔逊等人所倡导的社会生物学的主题之一。


四、立法与激励机制设计


不管从经典博弈论还是演化博弈论来看,人类社会都在长期生存进化中表现出一定的结构和秩序。这种结构和秩序一方面是行为模式,另一方面是制约行为选择的组织规则,如法律、政策等正式的规则,以及道德、社会规范等非正式规则,后者包括重复博弈场景下的声誉效应。正式规则和非正式规则共同构成维护社会的存在繁衍和持续发展的制度。而博弈论,特别是展开型和策略型表示形式,是刻画制度的基本语言。

Basu (2000, 117)曾经提出一个“法经济学的核心定理”:社会中的任何行为和结果,如果能通过法律实施,则一定能被社会规范所实施。其言外之意,法律不会比社会规范更特殊。他用如下的博弈例证其观点。

法律确定在(0,1)之间的一个污染水平,企业选择污染程度,其收益即污染的量。执法者如果发现污染水平不合法,可以选择进行处罚或不处罚;如果应该进行处罚而没有处罚,或者不应该处罚而处罚了,则构成违法行为,相应地也应该进行处罚,也就是说执法者行动引出新的执法问题,博弈被扩展为一个更大的博弈。假设执法的收益为0,记其成本为D,惩罚为B,贴现因子为m。不失一般性,假设 D< mB, 1-mB > 0 。这意味着,发现违法行为,执法者对其进行处罚是理性选择,也没有必要节外生枝对合法行为进行处罚;企业一旦决定污染,那么最优选择则是最大程度1,其收益为 1-mB。那么,法律确定一个何种污染水平才可以得到实施?显然,1-mB 以下的规定都不会得到企业的遵守,只有达到 1-mB 及以上的规定才会得到遵守。

由于巴苏的命题是在一个具体例子中所阐释的,我们并不认为它有特别广的普适性。我们认为法律和社会规范有微妙的区别,而巴苏所谓的社会规范的分析中已经把司法过程囊括进来了。巴苏的命题更多地告诉我们,如果道德、社会规范和声誉效应能够很好地解决问题,实际上法律是不必干涉的。但无论如何,法律和社会规范有共同的可实施性的本质:一种行为模式,只有作为所有制度与技术要素共同构成的社会博弈中的纳什均衡(或其精炼),才会得到实施。包括法律在内的制度设计是否良好,只能在制度的具体实施和人们行为的均衡化过程中展现出来。

法律发挥作用的方式可以概括为三类:1)均衡筛选以协调社会行动;2)强化社会规范;3)改变并提供行为激励。

针对公鹿狩猎博弈之类的情形,如Myerson (2004)所强调的,法律的角色主要表现为进行均衡筛选,通过立法宣扬确定某个行为方式成为焦点均衡。强化社会规范方面,是指长期重复的社会互动中所产生的合理均衡行为模式,经由立法确认其合法性。譬如,我们从重复博弈的文献中知道,无限重复的囚徒困境博弈,或有限重复但至少一个博弈者存在特殊类型(如投桃报李、针锋相对(tit for tat))的情形,利用声誉效应,可以在一些完美贝叶斯均衡中得到比一次性博弈的均衡更好的结果。这两方面的工作可参考Axelrod (1984, 2006), Bicchieri (2006), Mailath & Samuelson (2006)和Skyrms (1995, 2004))等人的总结性研究。

前面这两种情形,不需要法律改变博弈的激励结构。但是有些自然博弈产生的策略均衡结果,从社会选择意义上来讲不是合理的,那么如何改变这样一个不合理的社会博弈的均衡行为模式?博弈论的解理论告诉我们,至少在一个信息集上的行为选择发生偏转才能做到这点,这就要求法律改变博弈的激励。如果在任何信息集处都可进行相应的操作,那么序贯理性(sequential rationality)和其它解理论思想的综合运用,使得任何行为模式都可能通过一系列的局部调整而转化为自我实施的均衡。所以,我们接下来要考虑的问题,法律如何起作用,换句话说,法律如何能够嵌入到一个社会博弈当中,这个社会博弈在初始自然博弈的基础上,加上一个法律的司法过程便一起构成完整的博弈规则。如前面所曾经讨论的,如果立法者只能在统计意义上实现其合理目标,并且人们经过一定时间的试错和学习就会熟谙游戏规则并找出应对之策,那么,重要的就是包括法律在内的社会博弈的均衡行为模式以及支持其得以实现的制度安排。

我们的一个基本看法是:法律实际上是一种间接作用的激励机制,它不是直接限制人们的行动集合,而是通过改变一个社会博弈的支付函数方式改变人们行为选择的激励,使得人们的行为实现立法者的目标。当然法庭改变支付函数的手段就是惩罚、奖励或补偿、恢复原样等,所以,激励即俗话说的“胡萝卜加大棒”。我们接下来的讨论主要关注以惩罚为主要手段,实际上相应的道理可以应用于各种各样的处置手段。

把法律看作一种激励机制,是古今中外皆有的。孟德斯鸠《论法的精神》中曾讲了一个激励不当的例子:“在中国,抢劫又杀人的处凌迟,对其他抢劫就不这样。因为有这个区别,所以在中国抢劫的人不常杀人。在俄罗斯,抢劫和杀人的刑罚是一样的,所以抢劫者经常杀人。他们说:‘死人是什么也不说的’。”

记仅仅抢劫被发现的概率为p1,受到的惩罚为c1;抢劫又杀人被发现的概率为p2,受到的惩罚为c2;显然有c1 < c2和p1 > p2。如果c1足够地小,c1·p1 < c2·p2会成立,理性的选择是仅仅抢劫而没有必要杀人,这就是孟德斯鸠所谓古代中国的情形;但如果c1变大甚至与c2一样,那么不等式就会偏转方向,此时杀人是最优选择,即古代俄罗斯的情形。所以,一味的严刑峻法有可能导致“民不畏死,奈何以死惧之”,而合理的制度设计应该使得c2和c1的差距足够大以免刺激抢劫犯变本加厉。

下面我们从一般意义上讨论:应该如何设计法律规范,以提供适当的激励,使人们的社会博弈行为脱离不合理的均衡。现实社会的法律有实体法和程序法的内容,二者的结合才真正构成完备的法律规范体系。实体结构基本上包含这样一些内容:一个就是某个行为主体在什么情况下不能做什么事情;另一个是对前者的支持,如果某人在某种情况下做了什么事情,他该受到什么样的惩罚。而程序法最核心的目的之一是要解决,如何通过一系列程序性的制度或者规则,来保证法庭得到一个对某个人做了什么事情的正确判断,接下来要结合着实体法律规范对他进行必要的惩罚。当然,法庭只能在概率意义上追求正确。

这就涉及到法经济学最核心的问题之一,即,法庭的核实技术或者说一个人的某项行动的可核实性(verifiability)。法庭要对社会纠纷给出一个裁决。它作出这样的裁决基于一个判断,根据我们前面讲的法律规范结构,即谁在什么时候做了什么事儿。所以,实际上,正如所有法律人的共识,证据是法庭诉讼的一个核心。我们把它总结为行为的可核实性,即法庭以多大的概率基于一些证据,认为某个人做了什么事。

当然接下来,根据关于法律事实的判断,相应的还要有一个调整规则。即,如果法庭认为某人做了什么事儿,他应该受到多大的惩罚。所以惩罚的严重程度和受到惩罚的概率,这两个结合起来,它就是法庭所能提供的对人们行为的激励。

我们会发现此时问题跟科斯定理有一种观念上的类似。如果法庭的核实技术是非常完美的,任何人做了什么事情,法庭似乎都可以查得一清二楚,百分百准确,那么我们说,法律和相应的立法就非常简单了。因为既然任何人的任何行动在事后都能被法庭完美地核实,那么只要对立法者认为不合理的行为进行足够的惩罚就可以使行动者不做此事,除非其效应函数特别奇特以至于惩罚带来的反向激励强度不够。但是,问题的关键在于我们不是生活在一个没有交易成本的理想世界里;同样,现实世界里法庭的核实技术会受到各种各样的限制,不可能做到对当事人行动的完美核实,相关的惩罚手段的强度也要受到一些制约,因此如何恰当地设计法律制度就特别微妙而复杂。那么,在核实技术不完美的情况下,法律如何改变激励以产生立法者所希望的行为模式?

我们可以使用完美贝叶斯均衡等解概念和序贯理性等方法,使得立法者所希望的全局行为模式,尽量通过局部的法律激励的调整来实现。注意到,核实技术给出的基于证据的概率性判断,法庭根据某些证据以某些概率判断某人做了某些事情,他也是以相应的概率受到或没有受到这些惩罚。哪怕法庭的核实技术不完美,但是法庭对不同的行为,即做了合法的行动和不合法的行动,事后做出来的判断中正确性的概率是有微妙差异的。如果两个概率分布是一模一样的,任何惩罚都不管用,因为两个行为受到的惩罚都一样,激励没有改变。所以,一般来说,如果两个行为是法庭完全不能事后核实的,那么法律就难以直接影响当事人的行动;但只要这个概率相对于不同的行动是不一样的,惩罚就可能有激励作用。

哪怕概率差异很小,但是惩罚力度极大,其所产生的效应也会很显著。所以接下来要考虑的一个问题就是,在现实世界里面,惩罚是有界的,不能无限大。这样的话,我们就要考虑不同的人举证,不同的举证规则导致的概率差异本身又会不一样。譬如医疗事故问题,如果让病人举证医院应该负责任,病人就面临着技术上的盲点,医院只会展示对自己有利的,而对自己不利的则会遮遮掩掩。这就导致,医院不管是高水平努力还是低水平努力,法庭判医院输也就是认为医院有过错的概率虽然有差异,但是这个差异不够大,激励上不显著。这样对很多医院来说付出低水平努力就行了,由此一部分病人就不来看病了。但是如果举证责任倒置,由医院来证明自己付出的是高水平努力,这样一个概率的差异就会足够大。我们在数学上很简单的推理即能得到,有这样一个概率差异并且存在着这样一个惩罚的力度:如果举证责任不倒置,那么它不能产生激励的偏转,也就是说,改变不了人们的行为;但是如果这个概率差异足够大,此时惩罚就足以使激励偏转。这也就解答了民法里面,为了促进技术上可行的有效率的交易充分实现而要求举证责任倒置的问题。

所以,通过斟酌使用的法律设计,结合博弈论解理论的方法,我们原则上可以刻画法律通过不同的激励安排能够实现的行为模式,从而也就刻画了法律能实现的目标。当然,制度设计的简易原则要求,应该尽量在局部的地方施加法律调整,而博弈论的策略性互动的观念意味着,局部法律规范的可靠性,只有能够促进合理均衡行为的实施,才能在全局意义上得到恰当解释;应该尽可能以可制度化或契约化的行为影响那些不可制度化者,以可核实的行为间接制约不可核实的行为,通过关键局部的微调而达致全局最优目标;尽可能使得调整发生在法律得到有效遵守就几乎不会出现的路径上,使法律作为一种引而不发的潜在力量起作用,即孔子所谓的“无讼”境界。最后,根据社会选择规则如前述规则功利主义的标准,我们可以综合权衡法律能实现的目标和所使用手段的社会福利,并确定哪一种法律规范的选择是最优的。

从立法技术上看,对权利和义务的界定与关于违法行动的核实技术是密不可分的,因为权利的最终实现取决于包含法律调整在内的博弈结构为行动者所提供的激励。随着科学和工程技术的进步所带来的法庭核实技术的精细化,一些原来不能在立法中体现的权利就有可能正式地明晰地界定下来。

另外,同一个法律领域中,不同规则的选取,譬如民法中财产规则与责任规则的适用,也与核实技术有关。如果需要保护的利益极其重要,并且侵权行为被核实的概率极高,那么财产规则更有效率。但随着核实技术的下降,适用财产规则会带来更多人被冤枉,由此对社会总福利的负面影响也越来越大,责任规则相对就更合理。在此意义上,财产规则可以看作责任规则的极限情形。交通事故处理中,哪怕司机被认为不负责任通常也要承担一定比例的赔偿。这是因为即便在行人负有完全责任时司机的高度注意也可大大降低事故发生的概率,而司机是否付出了高度注意实在是难以核实,而令其承担一定赔偿的目的就在于促使其为了避免这部分损失而尽量提高注意力,从而使社会避免更多的总福利损失。另外在侵权法中,在可核实性可以得到同等保证的前提下,规则功利主义蕴涵着按照著名的汉德公式进行责任配置是合理的。

我们在此总结一下,将博弈论和机制设计理论运用于法律制度的设计,有哪几个基本观念是特别重要的。首先当然是技术上的可行性,由于我们不能建造空中楼阁,这一条显而易见。其次是制度规范之间的内在一致性和关联性。制度是作为一个规则体系的整体而发挥作用的,一项孤立的制度如果没有配套措施的支持,可能会使其目标成为空中楼阁。

激励相容。制度设计者所追求的任何目标,如果不是人们在制度之下的社会博弈中合乎纳什均衡(或其精炼)的行为模式所产生的结果,就不会被实施。

参与约束。一个博弈者从参与一个机制或契约中所得应该不低于其不参与的保留效用。从整体博弈的角度看,参与约束可以被解释为是由更基础性的制度所赋予的基本权利,所以可看作激励相容约束的特殊情况。譬如,根据不同的产权制度,基于人们的现状(status quo)或底线(threat point)分别做出的拆迁补偿方案就有很大区别。

信息维度与知识复杂性约束。如果一项制度的运行需要无穷复杂的知识,从而超出人们的操作能力之外,它是不可能被良好地实施的,其目标也就难以充分实现。所以制度应该尽量简约。

稳健性与多样性。如果一项制度在人们出现微小失误时会导致巨大的后果,或者在环境发生微小变化时同样的行动选择会出现大相径庭的结局,那么遵循这种行为模式的决策者就很难成为进化中的成功者。好的制度应该能够避免或减少这种灾难性。制度的绩效相对于个别人的非理性的行为和环境的扰动应该有一定的稳定性,不会因为某个环节出现小偏差而崩溃;同时,在社会环境发生重大或剧烈变化的时候,制度与社会博弈的均衡策略应该做相应的调整适应。

策略性模糊或不完备。由于人们的知识或基于其知识的制度不可能是完备的,在很多情形下人们的行动只能被限制在一个特定空间内而不能做进一步的刻画或约束。这是个人自由和不完全契约等的根源所在。另外,在对有些人的行动不能完美核实的情形下,对那些事后可核实的行为在事前明确限制未必总是明智的,有时故意赋予制度或契约一定的模糊可能更有利于最优社会目标的实现。


五、整体博弈:法律的设立、实施与变迁


上一节内容,基本上是从规范角度解释Hurwicz-Mount-Reiter三角,中立的研究者基于合理的社会效率与公平正义的立场,为制度设计者提供政策性建议,即应该如何立法和设计激励机制,并且隐含地假设设立的制度至少在统计意义上能够得到良好的实施。但是,从实证意义上,传统政治学和法学中关于立法、行政、司法的划分也告诉我们,法律的设立、实施,实际上被嵌入一个范围更加广阔的社会整体博弈,并处在不断演化变迁的过程中。规范意义上制度设计者用以选择不同法律的社会选择规则,实际上是在更基本的规则之下社会博弈的产物。

前面“特权的灾难”博弈中,有一定特权的甲反而被乙和丙的策略性“妥协”所击败。我们现在考虑分两种情况考察动态的投票程序,由甲作为委员会负责人决定具体程序。

第一种情况,如很多议会中的做法类似,分两轮投票,首先选择两个法案进行多数规则投票,胜者再和另一个进行最后决胜。甲在决定程序时有三个选项,即第一轮让a、b、c中的一个轮空。初看起来,似乎第一轮让b和c出场,人们按照自己的真实意愿投票,这样b胜了c,然后最后一轮a再赢了b,即可达到目的。但是除了最后一轮两个法案之间决胜的时候肯定会按照自己的真实偏好投票以外,其它情况下都可能存在一些人虚假地显示自己的偏好以达到操纵结果对自己有利。这种程序下,乙看到最后一轮是自己最不喜欢的a胜出,他就会在第一轮转而投票给c,使得c出线并最终获胜。三种程序比较下来,甲只有让a先和c在第一轮竞争才能达到目的,丙看到按照真实偏好投给c是没有价值的,因为这样胜出的c在最后一轮会输给b,而b对丙来讲是最糟糕的,故而丙只好在第一轮成全甲投票给a,最后一轮a再赢了b。

第二种情况,投票是公开的,但有先后顺序,三个法案打平时以甲的票为准。此种情况下,甲在决定程序时的选项更多。但类似的分析可以得到这样一个“子博弈完美均衡”的结果:甲让丙先发言。丙如果依然寄希望于乙会和他联手投c而先说出c,那么甲不能让乙接着发言,因为这样乙考虑到甲的特权不能提b而只能附和丙,结果对甲不利;但是这时甲可以自己第二个发言并提出b以成全乙,这样丙就得到最糟糕的结果。所以丙只能寻求次优而说出a,然后甲赞成。

我们通过这两个例子只是想表明,投票者在公共选择过程中是追求自己最大利益的理性的机会主义者,他们会尽可能利用游戏规则精明地获益,最终通过的法案往往只是他们策略性安排议程和投票等行为的均衡结果。当然,现实世界中会有更复杂的现象,如互投赞成票(logrolling),政党结盟,为分配结盟利益而讨价还价,利益集团的院外游说等。这意味着立法博弈的均衡结果未必是合乎功利主义或罗尔斯的差别原则,而历史和实践中也有许多法律制度仅仅是为某个王朝、家族或利益集团服务。

投票者们对法案进行投票时,他们关于方案的偏好建立在他们关于未来这些法案所影响的社会博弈的均衡结果的预期上。而法案所影响的社会博弈的均衡结果,实际上还取决于法律多大程度上得到实施。行政机构、法庭与社会公众的执法、司法和遵守法律的行为,也应该看作是其中的利益相关者在那些支持性、配套性制度下社会博弈的均衡结果。如果信息是隐藏的,逆向选择就可能发生;如果行为是不可观察或事后核实的,他们也有可能做出道德风险的行动,包括执法者与当事人的勾结。这就是如Hurwicz (2008)所谓的“谁来监护护国者”的问题。所以,在规范意义上视为当然的,必须在实证意义上有其被社会博弈的均衡结果所建构出的合理性才有可能成为现实。

这也意味着,法律制度,和其他社会博弈规则一样,有着复杂的层级和结构。一般来说,一项应用于初始博弈的法律规范,制约它的是关于社会博弈的制度,后者又受到关于社会博弈的制度的制度的制约,而决定它的是更基本的(fundamental)制度,如此类推,存在一个制度的阶梯或序列,低阶制度是高阶制度所决定的“制度博弈”的均衡结果。以此观之,在实证意义上宪法也未必是最基本的“游戏规则”。当然,这就带来关于“元制度”的无穷回归问题。

最终,我们只能回溯到过去历史所赋予我们的所有要素,环境、技术,人口分布,各种层级的规则,文化和信念系统,它们共同给出了社会整体博弈的结构,而每个博弈者,基于自己对此整体结构的局部认知,做出一个“主观博弈”中的均衡策略选择。这些个体策略选择的汇总,在宏观效果上会表现出一定的动力学轨迹,包括其中相对稳定的结构。

但在博弈论中,不存在一个解理论对任何社会博弈都能给出纯策略意义上的单值解。这意味着,基础性规则对次级规则的蕴涵或限制的封闭性也只能在多值意义上,也就是说,并非在所有层面上高阶制度都严格决定唯一的低阶制度。这就使得制度之间的关联性与嵌入性,不同规则之间的独立关系、互斥关系或互补关系极其错综复杂。另外,进化博弈给我们的启示,许多均衡只是具有局部的稳定性而不具有全局稳定性,那些相对基础性的制度只是受历史和文化等因素所制约并在进化过程中表现出更强的稳定性而已。均衡的多重性和相对稳定性,对如同生物多样性类似的制度的复杂性涌现给出了合理的解释,同时也为制度变迁提供了一种内在可能性。

伟大的数学家哥德尔,据王浩先生所言,对他的数理逻辑中著名的不完全性定理给出过一个社会科学意义的解释:“一个完全不自由的社会(即处处按“统一”的法则行事的社会),就其行为而言或者是不一致的,或者是不完全的,即无力解决某些问题,可能是极端重要的问题。在困难的处境里,二者当然都会危及它的生存。这个说法也适用于个体的人”。

制度设计者通过事前立法来合法化调整社会的能力,受到其认识水平、对象的信息复杂性和其资源与技术的限制。我们的建构性制度通常难以穷尽所有的生活场景,包括法律在内的规则体系必然是不完备的,没有包罗万象的事前规则能够决定性地明确规范所有社会博弈的操作细节。那么,制度赋予决策个体或组织相应的剩余(residual)决策的自由权利就特别重要。如果某项行动虽然没有事前的制度来规范限制,但如果事后会受到惩罚的概率很高的话,人们就会事前根据自己的预期调整自己的决策以尽量避免风险。这样的结果也许会让一个社会更“稳定”,但也削弱了经由个人自由决策所带来的知识创新和制度进步。因为,所有的制度变迁,和知识创新一样,都来自于某个头脑对世界的认识的顿悟,虽然诱致此顿悟的外部世界也许早已发生变化。

环境、技术、人口的变动,以及信念系统的改变都会带来社会博弈的基本参量的变化,那些敏锐的博弈者会觉察到此,发现原有体系中的不协调,寻求新的社会博弈的均衡,支持新均衡为均衡的制度也互为表里一起被确立。制度演化,是旧的均衡不断被打破又形成新的均衡的过程。趋向均衡的过程是极其复杂的,甚至偶然性都会扮演重要的角色,但均衡给出了观察这个复杂过程的参照。

社会制度转型中的策略选择尤其复杂。制度变迁,即从一个均衡跃迁到另一个均衡。在更优的均衡时是怎么样子的,与实现均衡跃迁的手段和路径,二者通常是不同的。几乎所有的改革都要面临的问题,不是目标难以明确,而是途径难以选择。当我们观察到另外的社会,通过一种高效率的方式组织起来的时候,我们还应该想到,在这一项制度背后还有一束与它配套的互补的制度,还有一个漫长的进化过程。我们知道某个制度及其均衡结果是好的,但我们未必知道如何从我们所处在其中的那个不好的制度均衡跃迁到另外的均衡的途径。这是博弈论给我们的启示,也是我们在历史和现实的实践中一次次碰壁得到的教训。这是几乎所有的经济学或任何社会科学理论都难以根本避免的局限性。

从机制设计的逻辑看,高阶制度制约了低阶制度;而从制度变迁的路径上看,却往往只能从改变低阶制度着手。但是,事物的复杂性告诉我们,不能以简单的局部的模仿或移植进行制度改革。不同的组织、种群或社会之间进行竞争,其策略是多维度的制度、文化与技术的复杂组合。有时一个小的方面的缺陷,如某项规则的缺失或错误,就可能大大降低整个策略的绩效。如果与基本制度环境不兼容,模仿或移植的制度就可能“橘逾淮而为枳”。只有那些与现实的基本制度相独立或者作为其支持的制度已经得到确立的制度,其引入才水到渠成。所以,激进的社会革命把人们抛入极度不确定的环境中,使得只有很少部分从传统和进化中习得的知识可资借用,最终只会瓦解整个社会的和谐运行;而纯边际意义上的小打小闹又极易被原来的制度均衡所吸收而消弭于无形。选择中间道路的才能是一种艺术而非可以简单传授、复制的技术。

这决定了变革是痛苦抉择的过程,是一个充斥着试错、学习、调整和适应的过程。由于基本环境的稳定与主导性博弈主体的“惰性”,社会存在演化的动力形态有时会表现为长期的正反馈的单调性。这种路径依赖与锁入效应会使得“物极方反”,一个社会只有恶化到不可收拾的极端地步才可能改弦更张,即所谓“不撞南墙不回头”。破局的策略,可能既不合于原有的均衡行为模式,也不同于新的均衡行为模式,而是特定的“改革博弈”中的策略。在这个主观博弈中,人们行动的策略选择之间未必是构成客观意义上的均衡。但是,保持规则的相对稳定,哪怕带来暂时的社会福利损失,却有助于人们减少震荡、凝聚共识,使得整个社会很快学习收敛到均衡行为模式。

给定技术和环境,制度变迁的理想表现就是从低效率均衡到高效率均衡的帕雷托改进;但是,问题的关键往往在于,可能有多个不同的满足帕雷托效率的均衡(包括现状)。在这些均衡之间的转移必然涉及到利益的分配和相应的讨价还价;而讨价还价理论中的一个重要结论是,在存在信息不对称的情况下,有时那些相对现状是帕雷托改进的交易并不一定能够实现。这就意味着,即使一项制度改进是对所有人都有利的,但如果还有其它相竞争的制度选项,实现制度的跃迁也并非轻而易举。

所以,经由讨价还价的公共选择过程而达成妥协特别重要,尤其是不能轻易挑战重要利益相关者的底线。如果不能达成妥协而爆发革命,反而只会引起社会的倒退。虽然几乎所有的有效率的制度都建立在对人们的互动博弈和理性个体的利己主义的认识以及相应的激励上,但宽容、克制和良心有助于增加社会结构在转型期特有的不确定环境中的稳健性,是使社会免于崩溃的减震器之一。夹杂着野蛮的丛林法则的改革是一种刀刃上寻求平衡的游戏。简单的改革往往会 “吃柿子单拣软的捏”,强者在利益分配的讨价还价中想着拿走几乎整块蛋糕。盲目自信使人们的注意力只朝向那水面上的冰山,而当感受到水面以下部分的可怕力量的时候却可能已船覆人亡。这种所谓“最容易”的改革如果只让倒霉的弱者承担所有代价,那么似乎总是逆来顺受的他们在绝境中玉石俱焚的致命一击是非常可怕的,特别是利益受到冲击的不同集团形成有组织的结盟之时。


结语:探寻一种综合的纯粹法理学


几千年来,特别是轴心时代以来,法律的基本问题自其被提出几乎就没有变过,除了由于技术进步和环境变迁而具体内容发生变化;作为对这些问题的回答,作为进化的产物和无数智者智慧的结晶,大部分法律思想和法律规范的合理性也是毋庸置疑的。但是,与之伴随的是各种不同学派和思想家虽然精彩纷呈,却也难以通过一个统一的理论大厦使之结构森然有序。

奥曼和哈特在《博弈论及其经济应用手册》的“前言” (Aumann & Hart1992, xi)中强调:“博弈论可以看作社会科学的理性方面的一种统摄(umbrella)理论或统一场论”。如Gintis (2009)的教科书与Varoufakis (2008)的文章的标题所显示的,博弈论不仅提供了一个统一的行为理论,而且有可能以博弈论为核心把社会科学整合为一个逻辑严谨的统一分析框架。这使得我们作为研究者也有了奢望,去探寻一种综合的纯粹法理学,即,那些解释复杂现实世界的简单逻辑,跨越不同时代甚至不同文明的人类社会组织的基本原理。

任何好的科学理论,一定是符合如下两种评价尺度的。其一即内在标准:简单而深刻的原理,和谐统一的美感;其二为外部标准:推论足够丰富以能描述、解释甚或预见复杂的现象,从而有广泛的应用性。而好的社会科学理论,逻辑结构上至少应该是三个要素的有机结合:行为理论;规范理论;指导操作的理论。

相应地,好的法学理论,应该能够描述和解释社会运行的微观机理与宏观形态;秉持中允的容纳不同价值尺度的规范立场;提供社会组织及其规则设计的普适原理。这样的理论才能在应用中做到:超越规范与实证的纷争;打通理论法学与部门法之间的壁垒;整合实体法与程序法;对现实问题给出建设性的制度设计与政策选择的建议。在此意义上,博弈论的思想和方法为建构我们所谓综合的纯粹法理学提供了新的研究纲领。当然,这种新的法理学,并非是把传统的思想与规范完全抛弃,而是把那些合理而又不太系统的思想和结论重新整理,形成统一的逻辑结构;在更抽象的原理上消弭理论之间的冲突,为不同的思想和观念的争论找出其可能的决断,或者寻找其生发于共同基础又沿不同方向发展的独立性;提供对历史和实践的更强的解释力;在此基础上,发现对现实和实践有益的新的制度安排。

所以,求真、至善、达美,乃是逻辑上必然的知行合一之路。博弈论使我们可以更好地认识现实世界中的真实甚至丑陋的一面,基于这种认知和恰当的对策,我们才能理性地设计出合宜的制度,激发并提升人性中的善良、远见,实现人类作为宇宙精灵所蕴含的崇高和美好境界,这是庸俗博弈论的不凡旨趣。


原文刊载于《中国社会科学》2016年第4期,感谢微信公众号“法律经济学的世界 ”授权转载。