China Institute for Socio-Legal Studies, Shanghai Jiao Tong University

2020-07-07 [author] 海蒂·莱德福德 preview：

[author]海蒂·莱德福德

[content]

伊丽莎白·西瓦克（Elizaveta Sivak）花了近十年的时间去训练自己成为一名社会学家。然而，在进行一项研究时，她发现自己需要重返校园。

西瓦克在莫斯科的俄罗斯国立高等经济大学（National Research University Higher School of Economics）从事家庭与童年的研究。在2015年，通过在一系列的采访，她让青少年回忆他们过去五天中去过的十个地方，从而研究青少年的出行轨迹。一年后，她完成了数据分析。一位同事给她介绍了一篇论文，使用了哥本哈根网络研究（Copenhagen Networks Study）的数据，她对依赖于个人采访的局限性感到沮丧，因为在五个月的时间里，哥本哈根网络研究这个开创性的项目追踪了约1000名学生每隔五分钟的社交媒体通讯录、人口统计数据和地理位置数据。在那之后，她知道她所在的领域将要改变。“我意识到这些新的类型的数据将会永久地改变社会科学，”她说。“我认为这很酷。”

随即，西瓦克决定学习如何编程并加入这场革命。现在，她和其他计算社会科学家探索着海量的不规则数据集，从社会的数字烙印中提取含义。他们追踪人们的线上活动、探索数字化的书籍和历史文献、解释记录着人们出行和联络的可穿戴传感器中的数据、进行可以收集上百万数据点的线上调查和实验、探寻只有通过复杂的数据分析才会吐露社会秘密的巨大数据库。

在过去的十年里，研究人员通过运用这样的手段拆解了社会科学家们探寻了一个多世纪的话题：从人类道德的心理学基础到误传的影响，再到使一些艺术家比别人更成功的因素。一个研究揭露了算法里影响社保决定的普遍性的种族歧视，另一个通过移动手机的数据测绘出了卢旺达的贫困地区。

德国科隆曼海姆萊布尼茨社会科学研究所（GESIS Leibniz Institute for the Social Sciences）的计算社会科学家马库斯·施特罗迈尔（Markus Strohmaier）说：“最大的成就是对数字行为数据的观念转变。人们现在认为这些数据是有趣的、有用的。”

不是所有人都迎接了这个转变。一些社会科学家担心，大量涌入这个领域的野心勃勃的计算机科学家们对以前的研究不够熟悉。另一个抱怨是，有些计算研究者只看规律而不思考背后的原因，或者他们从不完整的凌乱数据——通常从社交媒体平台或其他数据清洁度不够的来源中获得——得出重磅结论。

凡事都可以从两个角度看待。一些出身物理学和工程学的计算社会科学家争论称，很多社会科学的理论过于朦胧或定义不清以至于无法被证实。

”但是这两个阵营正在开始合并。“计算社会科学和传统社会科学的交集正在增长，”库什尼格指出了合办期刊、会议、学习项目的激增，“相互的尊重也在增长。”

计算的革命

2007年，一小群有着远大抱负的科学家们聚在一起，开会探讨了社会科学数据运算的新兴技能。他们希望运用自己的技能改变世界。来自马塞诸塞州剑桥的哈佛大学（Harvard University）政治科学家加里·金（Gary King）在他的演讲中指出，数字信息的爆发“会让人们有可能更深入地了解社会，和最终开始解决——真正地解决——影响人类福祉的主要问题”。

在那时，已经有少量关于计算社会科学的研究出版了。在2006年，通过制造一个被14341人使用的虚拟线上音乐市场，一项研究探索了社会影响对歌曲热度的作用。参与者下载选中的歌曲时，有时他们会被告知这些歌曲在其余平台用户中的人气，有时不会。研究发现当用户越被其他人的行为所影响时，一首歌的人气越将难以被预测。这也为为何一炮而红如此难被预测提供了一种解释。

两年后，一个研究分析了六个月中10万个移动手机用户的行踪，发现人们的出行轨迹是简单的、可复制的。研究者们可以计算个体出现在任意特定位置的几率。他们提议辨认一个社群出行规律的相似之处，可以帮助人们更好地规划城市、了解疾病的传播和为紧急情况做准备。

“随着时间的推移，双方都在了解对方的语言和方法。”

同一年，技术杂志《连线》（Wired）发表了一篇文章，论点是大数据时代将终结所有科学理论。尽管此文章被广泛批评为有过度简化之嫌，它触动了一根神经：十多年后，社会科学家们重复性地引用《连线》的文章作为社会科学理论的相关性遭受了攻击的信号。

但是大数据仍持续了其主导地位。对费城的宾夕法尼亚大学（University of Pennsylvania）社会学教授邓肯·沃茨（Duncan Watts）来说，社会科学的这一变化使人回想起1990年代生物学发生的事情。那时，高通量技术开始生成关于DNA定序和基因表达的大量数据。“大量新数据的涌入要求人们以一种非常不同的角度重新思考数据，”他说。

这场革命的最初成果并没有在很多传统社会科学家心里留下太多印象，他们认为其中有一些方法是可疑的。怀疑者们认为社交媒体的研究是在数千不知情、不同意的参与者身上做实验。2018年，英国咨询公司剑桥分析公司（Cambridge Analytica）在未获得用户同意的情况下收集了百万脸书账户数据的新闻爆发。丑闻的后果持续地为社交媒体研究带来了更多的审视和怀疑。各平台颁布的新隐私条例使一些科学家的研究受阻。

社交尴尬

这个领域同样被早期讨论“玩具”问题的论文污名化。在社会科学中，“玩具”问题指可以通过数据回答，但无法解决长期存在的根本性难题的问题，比如攻克不平等问题或影响舆论。同是曼海姆萊布尼茨社会科学研究所的计算社会科学家克劳迪娅·华格纳（Claudia Wagner）说道：“一开始有许多推特研究，但我认为有很多社会学家并不感到十分激动”。

一些人认为，对玩具问题敞开怀抱至少有一部分归功于一个新兴领域站稳脚跟的结果。施特罗迈尔指出，当分析变得更加复杂、数据来源更加多元化后，这个领域也开始攻克更为重要的问题，例如歧视、不平等和激进化的源头。“我们现在才开始得到那种能让我们去探索大问题的数据”，他说。

举个例子，去年来自公共卫生和行为经济领域的研究者们运用了美国一医保系统中超50000名患者的医保记录去分析一个常被使用的算法。该算法将额外的监督和健康干预推荐给有复杂医疗需求的人们。研究团队运用的模型显示，此算法存在对黑人的系统性歧视——可能影响对上百万人的照料。接着，研究者们运用美国医保不平等方面的知识追踪该偏见的源头，并提出了消除算法歧视的建议。例如，算法不应该假设个体医保的花销可以代表他们所需照料的多少：因为黑人更少的接触医保资源，比起白人，通常来说更少的资金花在了照料黑人上，尽管他们有相同的医保需求。

但是获得好的数据并不是唯一的挑战：物理学或计算机科学出身的科学家被指责忽视了社会科学家用来解释人类行为所制订的理论。“他们常常寻找规律，”朱莉亚·安德里格托（Giulia Andrighetto）说。她接受过哲学家的训练，现在是罗马意大利国家研究委员会（Italy’s National Research Council）认知科学与技术研究院（Institute of Cognitive Sciences and Technologies）的一位计算社会科学家。“但是他们通常不会寻找那些生成该行为的机制。”

要想从事那些工作，需要对社会科学理论的坚实理解。位于多哈的哈迈德·本·哈利法大学（Hamad Bin Khalifa University）的计算社会科学家安智善（Jisun An）在2010年开始了计算机科学博士的学习，研究社交媒体上的新闻分享。那时计算社会科学的运动开始流行。一开始，她只和其他计算机科学家工作。他们挣扎着理解不同的社会科学理论。现在，她和政治科学家一起合作研究媒体对民意的影响、民意对媒体的影响以及如何鼓励人们增加他们新闻来源的多样性。“随着时间的推移，两方都在了解对方的语言和方法，”

她说。现在有了双方参与的具体迹象。第一届将两种途径聚在一起的主要会议将在2021年举行。为了减少分歧，各个大学正在创立将不同系的研究人员聚在一起的学术机构。例如，位于弗吉尼亚州费尔法克斯的乔治梅森大学（George Mason University）就有这样一个专门的部门。一个计算社会科学夏令营在全球拥有30个校区。一大群年轻积极的学生与可供选择岗位的增加一起，让权力斗争让位与更紧密地合作有了希望。

社交

计算科学和社会科学这两种途径的结合可以是很有力量的。西雅图华盛顿大学（University of Washington）的数据科学家约书亚·布鲁门斯托克（Joshua Blumenstock）和他的同事运用卢旺达上百万人移动手机的数据，去推断他们的社会经济地位，并通过与传统问卷收集到的数据做比较来确认他们的预测结果。这种方式可以让政策制定者针对需要被干预的贫困地区做出调整，或者用于检测已实施的政策的效果。

但是两者间依然缺乏沟通。哈佛大学社会科学教授琼·多诺万（Joan Donovan）指出了一篇去年发表的研究。研究人员在脸书和VKontakte平台上画出了线上仇恨组织的结构并展示了组织结构是如何随时间改变的。她认为，参与此项研究的物理学家和计算机科学家没有在文章中引用关键的社会科学文献，导致他们对研究结果的诠释并没有想象中丰富。当过往的研究显示仇恨组织在很多网域上追随有领导魅力的领导者时，研究人员调查的社交媒体平台显得太少了。研究团队得出的结论在她看来是危险的：社交平台可以试图通过例如创造假账号或制造仇恨团体的内斗的方式来引导仇恨组织的言论。她说这样做会增加仇恨组织的讨论量，提升搜索算法中的排名，反而弄巧成拙。她认为一个更好的战略是通过搜索引擎来限制这些组织的可见度，以达到限制仇恨言论传播的效果。

华盛顿特区乔治华盛顿大学（George Washington University）的物理学家尼尔·约翰逊（Neil Johnson）是这篇仇恨研究的主要作者，他习惯了来自社会科学家的批评。他说他已经引用了最相关的资料。社交媒体公司有权力去操纵搜索算法，他说：“就像他们现在为了抑制反疫苗和误传新冠病毒的页面和群组的显著性所做的那样。”他对误传、冲突和极端主义都有研究，并表示他每发表一篇受关注的论文就会收到怨言。但是他的研究触动了政策制定者：那些喜欢他研究成果的量化天性和预测干预手段可能导致的影响的能力的组织经常向他咨询。“我们可以用一种他们与其他研究机构沟通时没有经历过的方式去看待这些实际的问题，”他说。对他来说，他担心有太多没有经过恰当训练的社会科学家涌入计算这一领域中。

约翰逊并不是唯一一个对于理论对他们研究项目的重要性持怀疑态度的科学家。位于瑞典韦克舍的林奈大学（Linnaeus University）的计算社会科学家吉安加科莫·布拉沃（Giangiacomo Bravo）接受过社会经济学家的训练，他说很多社会科学的理论过于朦胧以至于无法用大数据证实。例如社会资本这一概念有时被定义为在一社会中使个体一起工作的共享理解与价值观。“社会资本这个概念的最初表述太过模糊了”，他说：“我怎么能测量这个呢？”

然而有些理论是更具体的。安德里格托研究的是社会规范，这指的是界定在社会里哪些是能被接受或不能被接受的行为的共同标准。她说，研究人员已花了十年时间为这个领域拼凑清晰的定义和理论。例如，一个理论表明，当社会规范改变时，它将使人们对某特定情境的反应做出变化。社会规范也被认为只能缓慢发生变化，且变化时伴随着深入的社会互动。这些可被检验的陈述，使安德里格托能够将计算的工作与社会科学理论结合在一起：她用线上实验去测试是否模拟的社会规范的改变会影响行为。

她并不是唯一一个想用社会科学改变世界的人。很多时候，沃茨说，他和其他学术研究者更追求文章被出版而不是寻找现实世界的解决方案。“我感觉我的工作在论文发表的那一刻就结束了，”他说。“我的工作是把这些想法放在台面上，想办法将他们转换为在现实世界中有意义的措施是其他人的工作了。”

沃茨说，为了让这种转变发生，来自两个阵营的研究者们必须保持合作的势头。有些人已经能感受到这正在发生了。“传统的社会科学和计算社会科学实际上正在变得越来越紧密”，华格纳说。“鸿沟将在20年内消失。”

本文刊载于《自然》2020年6月18日第582期，原标题是《计算人性：脸书、推特和其他来源的数据是如何正在彻底变革社会科学的？》

译者：黄渊凝，纽约大学2018级本科数学系学生

转载自社计未来公众号

download计算人性：计算科学家和社会科学家是如何互相改变的？