本期引言

大数据时代计算社会科学的机遇与挑战

舒晓灵[1]

摘要:随着大数据的兴起以及埋藏在数据矿中的大量信息和知识的积累,使用数据挖掘技术来发掘新颖、有趣、有意义的隐藏于数据中的有规律的模式变得越来越重要。这种与传统方法相辅相成的研究方式影响了所有领域,包括社会科学。大数据的兴起为发现新理论、拓展新知识提供了前所未有的机会和挑战。本文首先探讨大数据的概念,然后阐述大数据研究者面临的一系列复杂问题。计算社会科学是集信息技术、大数据、社会计算和社会科学的一个新的跨学科研究领域,研究人员在社会科学理论的指导下运作,将计算社会科学方法应用于来自自然样本的数据(通常是大数据),发现隐藏于数据中的规律,丰富社会科学经验证据,并为理论创新与知识发现做出贡献。文章最后推荐本期七篇论文,阐述它们作为推广普及大数据计算社会科学的典范及其意义,以及对迎接大数据研究复杂性的挑战的启迪。

关键词:大数据 计算社会科学 数据挖掘 演绎与归纳 数据伦理

今天我们面临着排山倒海的数据海啸。工业、政府和民间社会的许多领域正在以前所未有的规模积累数据,基于大数据的分析和知识现在几乎推动了我们社会的各个层面的发展,包括零售、金融服务、保险、无线移动服务、商业管理、城市规划、科学技术、社会科学和人文学科。企业、机构和用户存储的新数据超过13艾字节[1艾字节(EB)=1024拍字节(PB),1拍字节=1024太字节(TB)],是美国国会图书馆数据的5万多倍(Manyika et al.,2011)。全球个人位置数据的价值估计为7000亿美元,在产品开发和组装方面可以降低50%的成本。

各种大型数据库风起云涌,为对群体、社区进行即时、新颖的多样性研究提供了丰富的数据来源。谷歌图书已将全球所有图书的4%数字化,而且这一过程尚在进行中。谷歌图书语料库包含超过5000亿个英语、法语、西班牙语、德语、中文、俄语和希伯来语单词,足以让人们以每分钟200字的速度没日没夜地连续阅读80年,语料库还可以显示在1800年到2008年200多年间组合词条的使用情况。

互联网档案馆是一个数字形式的互联网站点和其他文化艺术品的数字图书馆,免费提供279亿个网页、1100万册书籍、400万个录音、300万个视频、100万个图像和10万个软件程序的使用服务。

脸书生成了4个新的数据库,每天进行60万个查询和100万个大数据并行化处理。据2014年的一项报告,脸书的数据库Hive在 80万个数据表格中存储了300 拍字节的数据。

全球事件、语言和语调数据库(The Global Database of Events,Language and Tone,GDELT)实时监控全球网络空间,分析和提取世界各国门户网站、印刷媒体、电视广播、在线媒体和在线论坛的新闻事件,并提取关键信息,如人员、地点、组织和与新闻事件相关的事件类型。GDELT记录了全球可追溯到1979年1月1日的300个类型的活动,从骚乱和抗议活动到和平呼吁与外交交流活动,并融合了城市或山脉等地理参照。GDELT每15分钟更新一次。自2015年2月以来,GDELT已经汇集了来自全球网络空间的9.4亿条消息,存储容量为9.4太字节。

大数据的增长彻底改变了天文学、生物科学、人工智能、社会科学和人文科学等领域的科学研究。

·通过使用庞大的空间图片数据库“斯隆数字天空调查”,天文学研究得到了彻底改变,以识别有意义的天体和宇宙现象。

·生物信息学已经从生物科学中涌现,对数百万甚至数十亿的DNA链快速并行排序,专注于基因组测序数据库研究。

·在人工智能方面,科学家们开发了AlphaGo,它经过培训,可以从拥有3000万围棋下子复盘的数据库的历史记录中对专家级围棋选手进行建模,通过监督学习学会新策略。AlphaGo多次击败围棋世界冠军,被认为是历史上最强大的围棋选手。在20世纪90年代末,当DeepMind击败国际象棋世界冠军加里·卡斯帕罗夫时,它使用了蛮力人工智能 (brutal force AI),而国际象棋的搜索空间仅仅是围棋搜索空间的很小一部分。

·谷歌图书集将定量分析扩展到社会科学和人文科学学科中(Michel et al.,2011)。通过分析巨大的谷歌图书集,社会科学家和人文学者能够追溯文化的历史,包括英语词汇的变化、语法的演变、集体记忆的变迁、新技术的采用、对名誉的追求等。

社会科学、自然科学、工程学等各学科联合起来,通过整合各学科,为社会科学和人文学科研究提供数据描述、可视化、挖掘和建模的平台与工具。数据科学或数据研究中心与机构纷纷成立,它们是统计学、机器学习、人工智能和计算机科学的融合,是包括传播学、心理学、社会学、政治学、经济学、金融商业、环境科学、语言学等在内的学科研究的结构性变革的产物。大数据计算社会科学项目不仅要求研究者拥有关于数据处理、数据库技术、统计和计算算法的深入认知,还要求来自心理学、经济学、社会学、政治学和语言学等领域的专家拥有特定领域的理论洞悉,使他们能够结合可用的数据挖掘工具,发现有效且有意义的知识。计算社会科学成为一种新的方法论,并且由于人类和组织行为的可用数据的急剧增加而越来越被广泛应用(Lazer et al.,2009)。

我们正处在一个数据在研究过程中发挥越来越重要作用的时代。由于技术的发展,互联网、移动设备、计算机、数字传感器和记录设备的进步使得可用于分析的数据量呈指数级增长、复杂性不断增加,在合理的时间内获取、管理、处理和分析这些数据变得很困难甚至不可能。在传统的研究过程中,运用驱动模型构建动力的是源于理论推导的假设。然而,随着大数据的兴起以及埋藏在该数据矿中的大量信息和知识被挖掘,在领域内专家的理论指导、经验提炼与洞见引领下,使用数据挖掘技术发现有趣、有意义和坚实的模式在研究过程中变得越来越重要。这种与传统方法相辅相成的研究方法影响了所有领域,包括社会科学。大数据为发现新理论和新知识提供了前所未有的机会。

一 大数据时代

大数据的概念是由Laney(2001)设想的,他提出了一个著名的“3V模型”来应对日益庞杂的三维数据管理。大数据的特点是容量巨大(volume)、高速增长(velocity)且种类繁多(variety)。大数据的概念在2008年开始流行,从此,大数据成为所有科学研究领域广泛讨论的新话题。《科学》(Science)杂志在2011年举办了一个关于大数据的特别论坛,进一步突出了大数据研究的巨大潜力和其发展面临的巨大挑战。同年,麦肯锡(2011)关于“大数据:创新、竞争和生产力的新前沿”的报告宣布,海量数据将带来巨大的生产力和利润,这增加了人们对这一已经令人兴奋的发展方向的热情。大数据对经济、科学和社会产生了巨大的影响,同时大数据技术给整个社会带来了革命性变化 (Mayer-Schnberger and Cukier,2012)。

大数据的核心特征是数据的巨大性和复杂性。有些人简单地将过于庞大的且超越传统数据库技术能力来存储、访问、管理和分析的数据视为大数据(Manyika et al.,2011)。其他人则基于其四大特征(4V)来定义大数据:以拍字节或太字节为单位测量的大容量 (volume),快速且连续增长的高速度(velocity),包括结构化数据和诸如文本、图片、视频和声音的非结构化数据的多品种(variety),以及可以转化为经济利润、学术知识和政策见解的巨大价值(value)。使用计算算法、云存储和人工智能对大数据进行分析可以即时、连续、自动或半自动地挖掘和分析数据(Dumbill,2013)。

大数据是一个多方面且复杂的概念,不能简单地从数据或技术角度来看待(Mauro et al.,2016)。我们至少可以从四个不同角度感知大数据。首先,大数据包含信息。大数据的基础是从文本、在线记录、全球定位系统、在线论坛等中生成和利用信息,这些大量信息被数字化、编译并存储在计算机上(Seife,2015)。其次,大数据包括技术。数据的巨大体量和高复杂性给计算机存储、数据处理和数据挖掘技术带来了困难,大数据的技术组成部分包括分布式数据存储、云计算、数据挖掘和人工智能等。再次,大数据包含方法。大数据需要一系列超出传统统计方法的处理和分析方法,如关联、分类、聚类分析、自然语言处理、神经网络、网络分析、模式识别、预测建模、空间分析、统计、监督及无监督学习和模拟(Manyika et al.,2011)。最后,大数据会产生影响。大数据影响了我们社会的许多方面,它彻底改变了我们开展业务和研究,从事设计和生产的方式,它已经并将继续改变有关个人信息的效用和管理的法律、指南和政策。

总之,大数据的本质特征在于大容量、高速度和多样性信息,还包括技术和分析方法,将信息转化为有经济价值的见解,从而影响社会。“大数据是以大容量、高速度和多样性为特征的信息资产,需要特定的技术和分析方法才能转化为价值”(Mauro et al.,2016)。

二 大数据的复杂性与挑战性

虽然大数据提供了革命性的机遇与巨大价值,可以弥补传统方法在研究方面的一些不足,但它也面临着新的挑战和问题。我们需要一些方法来利用这些大数据的优势,防止掉入数据驱动的陷阱,对数据伦理与隐私担负责任,同时要应对大数据样本的缺陷与数据(尤其是文本数据)的复杂性。

(一)理论与数据的辩证关系

理论与研究之间的关系可以通过演绎法和归纳法来体现。演绎法有时被称为“自上而下”的方法,研究人员从他们感兴趣的主题的理论开始,然后演绎引申出具体的可检验的假设,最后通过收集数据或实地观察以检验假设,这些检验的结果将导致对假设的确认或反驳,从而对推动整个项目的原始理论做出决定。归纳法则被称为“自下而上”的方法,研究人员基于具体的一系列观察,归纳总结出广泛的概括性规律与理论。在归纳研究中,研究人员首先收集数据,然后对数据进行严谨且系统的观察与发掘,搜寻与总结出规律模式,引申出对这些模式有解释力的初步假设,并最终总结出理论结论(舒晓灵、陈晶晶,2017)。

虽然数据挖掘有时被称为探索性研究,但将其视为归纳法和演绎法的组合更合适。数据挖掘的科学领域从其婴儿期就小心翼翼地致力于防止掉入数据驱动的陷阱,从而得以发展壮大和成熟。

虽然演绎与归纳两种方法存在差异,但这两种方法在数据挖掘的过程中相互补充。实际上,在这个过程中,演绎法与归纳法经常结合起来形成从理论到数据再到理论的循环(Shu,2020)。演绎法更加固定,专注于测试假设,而归纳法更开放,更具探索性。数据挖掘的过程是在理论与经验指导下,对数据进行有目的、有意识的探索与挖掘,从而洞悉数据彰显的规律与模式的理论意义。数据挖掘的研究方法和大多数社会科学研究项目一样,是一个同时包含归纳法和演绎法的双向研究过程,而不是在海量数据里漫无目的地盲目捞取、搜寻研究课题与问题的过程。

(二)伦理规范与个人隐私

与应用收集数据的任何其他研究方法类似,对大数据进行挖掘与使用受到一系列伦理问题的影响,大数据研究者还面临着额外的复杂问题。数据挖掘研究人员必须充分了解这些严重的伦理影响,并对数据和数据挖掘方法的应用采取负责任的行动。

数据伦理道德准则涵盖数据隐私、数据完整性和被访者的权利。当研究人员在数据收集之前获得信息提供者的同意时,信息提供者有权知道他们的数据将如何被使用、研究的目的、保护其数据机密性和完整性的程序以及他们的权利和数据泄露后的补救措施。数据挖掘可能会遇到伦理规范受到损害的复杂情况。研究人员需要了解收集数据的条件以及允许数据应用的范围,防备数据的使用方式远远超出被访者的预期。发达的数据挖掘技术的进步使得数据匿名变得困难,即使在采取诸如剥离识别信息(姓名、出生日期、地址、电子邮件地址等)等预防措施后向公众发布数据时,人们仍然可以通过将所有信息和模式组合到一起来识别个别记录,揭示个人的身份。例如,据《纽约时报》(New York Times, https://www.nytimes.com/interactive/2019/12/20/opinion/location-data-national-security.html)报道,其Times Privacy Project获得了2016~2017年美国1200万人的手机的500亿个定位ping数据,并结合运用其他公共数据库如房屋交易契据数据库,只用几分钟就确认了特朗普总统的一位特工的每天行踪、家庭地址与家属信息。

一些网站将其获得的数据视为具有货币价值的商品,以便出售以获取利润。网上捕获和交易的数据量呈指数级增长,违反伦理道德规范的可能性也大大增加。拥有、出售或购买数据者有义务通过使用户匿名并对数据发布内容负法律责任的方式来保护数据隐私。现行法律允许这些公司将数据交易给可能不履行这些义务的第三或第四者,使用这些数据的研究人员很可能会侵犯隐私,使得这些数据用于除被访者最初同意之外的目的的可能性大大增加,例如Facebook-Cambridge Analytica的数据丑闻揭示了在线数据的危险(https://www.nytimes.com/2018/03/19/technology/facebook-cambridge-analytica-explained.html)。

(三)数据样本

数据挖掘通常使用来自自然样本的数据,既不是人口普查数据也不是精心设计的概率样本数据。传统的统计方法是基于仔细采样设计的概率样本来统计推断其可能性。随着互联网的日益普及和在线活动的不断增加,从现有的网上数据库中可以获取大量数据,例如在线购买记录、脸书互动记录、微信朋友圈记录、跟踪设备的健身记录、全球定位系统记录、信用卡购买记录、优步或来福车乘车线路记录、保险索赔记录等。这些数据组成的数据集通常是非随机样本,是对人类活动的记录,被称为便利样本(convenience sample)或自然数据(natural data)(舒晓灵、朱博文,2016)。

这些自然数据也随着社会和历史发展而演变,从而反映出不同的人口抽样方案。例如,近年来学者们纷纷用拥有200年文字出版图书数据的谷歌图书语料库来分析过去两个世纪的流行文化,但谷歌图书语料库并不是对当时流行文化的无偏见的抽样,而且图书出版也越来越受科学和学术著作的支配地位影响,此外高产作者对谷歌图书语料库也有更高的权重影响力(Pechenick,Danforth and Dodds,2015)。

虽然这些大型数据集很容易从各种在线数据库中获得,但它们既不是人口普查数据,也不是精心设计的概率样本数据。研究人员经常不确定它们与人口的关系。目前尚不清楚它们是否代表人口,或者每个人口成员的概率是多少。因此,传统的统计测试范式通常不适合这些来自方便样本的数据。

(四)文本数据

大量的大数据是以文本形式表述。文本是最常见的信息交流媒介,也是一种重要的数据形式。人与人之间的信息沟通媒介,例如报纸报道、杂志文章、期刊出版物、书籍、历史文件和机构文件、人事档案、医疗记录、申请信和推荐信,全部为文本格式。它们代表了大量未开发的数据,这些数据一度超出了人类的处理能力。互联网极大地增加了此类数据的数量。互联网上的大量文本,形式包括网页、电子邮件、脸书内容、推特内容、亚马逊产品评论、博客、论坛、微信朋友圈等。谷歌、必应、雅虎和百度等搜索引擎都是基于对大量文本数据的挖掘与开发。

文本数据挖掘不同于数字数据挖掘。在进行文本数据挖掘之前,需要在数据收集、采用和准备方面付出额外的努力。文本数据是非结构化数据,研究人员必须准备文本数据,以便与现有的数据挖掘工具相匹配,或者专门为文本数据构建新的工具。与我们通常处理的数字数据不同,文本数据没有我们所熟悉的如数字数据般整齐记录的固定结构,而是由长度不同的单词或字段组成,这些单词或字段的字数不同,顺序可能重要也可能无关紧要。文本转换成数据要处理各式错漏与麻烦:单词可能拼写错误、句子没有严格按照语法范式、缩写用不同的方式、意外地被提前断句、同样的词条在不同的行业与群体中是不同的术语和行话、同义词和同形异义词的区分与定义。此外,对一个词的理解必须在相邻词的语篇语境和更大的文本背景下进行。文本数据挖掘是对数据进行提炼与总结的一种特殊情况,处理文本数据需要专门的数据检索和预处理步骤。

三 大数据时代的计算社会科学

计算社会科学是信息技术、大数据、社会计算和社会科学融合的一个新的跨学科研究领域。计算社会科学的概念在2009年首次获得认可,当时Lazer等人(2009)在《科学》杂志上发表了关于计算社会科学的论文。电子邮件、移动设备、信用卡、在线发票、医疗记录和社交媒体已经记录了大量关于人类互动的长期和大规模数据。计算社会科学基于大数据的收集和分析以及数字化工具和方法,例如社会计算(social computing)、社会模拟(social simulation)、社会模型(social modeling)、网络分析、在线实验和人工智能,用以研究人类行为、集体互动和复杂组织(Watts,2013)。只有计算社会科学才能为我们提供前所未有的分析海量数据的广度和深度的能力,从而为我们提供一种理解个体行为、群体互动、社会结构和社会变革的新方法。

学者们对计算社会科学这一概念有不同的理解。一个观点认为计算社会科学有两个基本组成部分:理论性和工具性(Cioff-Revilla,2010)。理论性维度需要复杂的计算机编程系统和理论。工具性维度包括用于数据处理、挖掘和分析的工具,例如自动信息检索、社交网络分析、社会地理信息系统、复杂建模和计算模拟等工具。

另一个观点认为计算社会科学有四个重要特征。首先,它使用来自自然样本的数据来记录实际的人类行为,这与从实验和调查中收集的人工数据不同。其次,其数据庞大而复杂。再次,它使用基于云计算、大数据库和数据挖掘方法的复杂计算方法来提取个体行为和社会结构的模式。最后,科学家们使用理论思想来指导大数据的数据挖掘(Shah et al.,2015)。

计算社会科学是一个跨学科的领域,从领域知识、数据管理、数据分析以及来自不同学科培训的学者之间的跨学科协作和协调的融合中产生(Mason,2014)。社会科学家提供有关研究背景和问题的见解,决定数据来源和收集方法,同时统计学家和计算机科学家开发适当的数学模型、提供数据挖掘方法以及必要的计算知识和技能,以保持项目的顺利开展。计算社会科学的方法主要包括社会网络计算、在线实验和计算机模拟(Conte,2016)。在线实验和计算机模拟都强调以理论测试为项目的原动力,而社会网络计算使用信息处理技术和计算方法对大数据进行挖掘和分析,以揭示集体和个人行为的隐藏模式。在线实验作为一种新的研究方法,利用互联网作为实验室,摆脱传统实验方法的局限,并利用网络世界作为超越时间和空间的实验的自然环境(Bon et al.,2012;Kramer et al.,2014)。计算机模拟使用数学建模和模拟软件来设置和调整程序参数,以模拟社会现象并检测社会行为模式(Bankes,2002;Gilbert et al.,2005;Epstein,2006)。

计算社会科学是信息技术、大数据、社会计算和社会科学融合的一个新的跨学科研究领域。研究人员在社会科学理论的指导下运作,将计算社会科学方法应用于来自自然样本的数据(通常是大数据),发掘隐藏模式以丰富社会科学实证经验,并为发现新知识及新理论做贡献。

特刊的意义与贡献

大数据应用对社会科学研究和社会进程的影响是多方面的。随着大量数字化信息数据包括微观数据、宏观数据、聚合数据、数字数据、文本数据、图像影像数据等的快速增长,许多社会科学研究领域,如社会平等、资源分配、人口保健、公共卫生和教育、社区建设、环境保护、社会心理与社会心态变迁,都可以获得新的启发与发现。社会科学家们运用新型大型数据进行各类分析,并且以不同的形式运行,包括描述性分析 (descriptive)、诊断性分析(diagnostic)、预测分析(predictive)和规定性分析(prescriptive)。大数据应用主要的挑战是数据收集处理和存储、数据安全与伦理、数据质量、计算机的计算能力、针对特殊应用的算法、知识发现与数据挖掘的应用、理论与数据的二维关系和对因果机制的认知。本期特刊的目的是巩固最近在社会科学领域的大数据方面取得的进展,并介绍新理论、新技术、新运用来启发激励研究者们进行新一轮的运用与创新。

本期特刊就以下特别议题进行了征稿:对社会科学和社会问题(如社会平等、资源分配、人口保健、公共卫生和教育、社区建设、环境保护、社会心理与社会心态变迁等)的数据分析的创新应用;用于社会科学和社会问题大数据应用的模型与算法(包括自动半自动的数据可视、非监督机器学习、监督机器学习、网络数据挖掘、非数字数据挖掘、网络与连接分析);大数据对社会的影响;以人为中心 (human-centered)的大数据研究;社会大数据的数据质量控制;网络实验与网络数据的收集处理分析;大型社会人文数据基础设施和框架的标准化;处理非结构化、未标记和/或丢失数据的高级技术与应用;大数据社会研究的伦理问题。

本期特刊推出了七篇优秀论文。其中四篇运用新颖网络与文本数据,推进富有重大意义的社会科学议题的研究,它们给读者们提供了网络与文本数据来源,并就文字数据的采取、数据前期处理、数据分析提供技术细节,对社会科学利用丰富的未开发的文本数据,并结合已有的常规数据,进行跨越历史、超越空间的探索树立了典范。另一篇介绍了新崛起的综合学科地理空间网络分析技术的应用与数据库,为社会科学开拓了一个新的研究维面,将人文社科信息排布于地理空间与时空网络结构之中,拓宽了人们的研究视角。再两篇对现有的计量方法进行了改进补充,一篇用数据挖掘方法发现了新知识新见解,运用数据挖掘方法的聚类分析划分了人群,并进行有趣味的创新探索研究;一篇详细地介绍了熵方法,阐述了熵方法相较倾向值分析方法的优势与劣势,为计算社会科学的终极目标——因果关系分析——提供了新的解析工具。

《从大数据看民粹主义在欧美的发展动态及其社会基础——基于全球新闻舆情大数据GDELT和社交媒体大数据Twitter的分析》(龚为纲、吴天择、郭明飞,2020)使用GDELT、Google Trends、Wikipedia等中的多类数据探讨民粹主义在欧美的发展动态,并从经济和社会心理因素开展了一些相关分析。研究认为收入分配不平等、移民而非失业、通货膨胀是民粹主义兴起的关键因素,愤怒情绪、无助感和伊斯兰恐惧症是催生民粹主义的社会心理基础。该文研究的问题很有意义,论证具有知识贡献,是一个运用网络文字大数据进行重大课题研究的典范,对计算社会科学的发展与革新具有启迪性。

《司法大数据视角下的涉性犯罪:类型与演变》(赵金旭、金炜玲、孟天广,2020)使用从全国司法审判文书中采集的涉性犯罪的审判书,利用文本分析识别提取涉性犯罪的相关变量,对涉性犯罪的模式进行分析。该文数据新颖,作者们提供了数据来源和数据采取、数据处理、数据分析的技术细节。收集数据的新型方式有远大发展前景,与人口普查和市县区域或地理空间数据结合,有潜力对宏观犯罪学及政策与法律研究提供革命性的新视角、做出新贡献。

《计算社会科学与社会地理计算的空间交互网络分析方法》(秦昆、王其新、李爽、罗萍、徐源泉,2020)对计算社会科学中社会地理的空间网络分析技术的应用与现行数据库进行了介绍,提供前沿的技术和视角,开阔读者眼界,为各学科融合、协力合作提供了可能性与平台,将现行数据与地理空间数据进行组合与交融,对推进大数据计算社会科学发展具有很大意义。

《国民获得感:概念、测量与指数构建》(段文杰、李玉梅,2020)对“获得感”这一重要的概念进行了阐述,回顾了当前研究的现状与不足,提出了建构这一概念的结构框架与测量项目指标,运用 2015年中国综合社会调查(CGSS 2015)数据,构建并选用实际测量问卷的测项变量,最终计算了获得感的两维衡量度与总的单项总值,并运用数据挖掘方法的聚类分析划分了四类人群。该文分析方法与结论都很有趣味与新意,对获得感领域研究做出了建设性的新贡献。

《因果分析中的倾向值分析和熵平衡法》(郝明松,2020)详细地介绍了与倾向值分析方法相辅相成的熵方法,阐述了倾向值分析方法的优势与劣势,探讨熵方法在针对多层次研究问题方面相较于倾向值分析方法的优势,就两种方法的优劣进行深入探讨,提供详尽的方法运用决策信息,并且用实例来展示两种方法的优劣与差异,对考虑采用这些方法的学者们很有学术意义,也具有实际应用价值。

《社会公平观的网络镜像——基于2013年和2018年微博博文的语义网分析》(吴锦峰、黄荣贵、桂勇,2020)有效地运用2013年和2018年的新浪微博博文,通过对文本数据进行挖掘,结合语义网分析和质性归纳的方法,对网络场域情境中有关社会公平的博文进行研究,归纳出网络场域中民众的社会公平观的两大特征、两大话语资源与公平议题的多元领域。本文对理解与勾画网络舆情的结构特征及其构成有重要意义,对中国社会公平公正研究具有创造性贡献。

《“一带一路”的沿线国家和地区关注度——基于互联网大数据的时空分析和影响机制探讨》(张柏杨、贺光烨、陈云松,2020)运用谷歌趋势(Google Trends)提供的谷歌搜索记录档案,通过研究“一带一路”沿线国家和地区民众对“一带一路”的搜索频度,来体现他们对此倡议的关注度。作者们从全球事件、语言和语调数据库(GDELT)中提取“一带一路”沿线国家和地区媒体报道“一带一路”的频次,对“一带一路”沿线国家和地区进行聚类分析。该文更为精彩的是结合其他数据(各国家和地区对华进出口贸易数据与其文化属性),运用交叉分类多层次模型(年度与国家和地区)来分析“一带一路”关注度的影响因子,非常新颖有创意,既运用大数据又与常规数据结合,既采用数据挖掘的新方法又使用传统数据模型,拓展了研究者们对数据与研究方法新颖灵活运用的视野,出色地展示了计算社会科学的强大包容性与创新力。

我们对本期的审稿专家们的卓越才华、辛勤劳动与超级耐心表示衷心感激。陈云松教授(南京大学)、胡安宁教授(复旦大学)、李煜教授(复旦大学)、梁斌教授 (俄克拉荷马州立大学,Oklahoma State University)、孟天广教授(清华大学)、宋丽君教授(范德堡大学,Vanderbilt University)和蔡天翼教授(澳门大学)在百忙之中为稿件提供了详细且富有建设性的修改建议,为提高论文质量、理论高度、方法严谨度提供了支持。

感谢《社会学刊》主编刘欣教授、副主编李煜教授和胡安宁教授的支持与信任,给予我这个不可多得的机会,与国内外顶级计算社会科学学者们进行合作磋商、交流学习,他们不厌其烦地就征稿的编辑出版给予指导与帮助,愿这批高质量的稿件能作为对各位努力的最好回报。

参考文献

段文杰、李玉梅,2020,《国民获得感:概念、测量与指数构建》,《社会学刊》第3期。

龚为纲、吴天泽、郭明飞,2020,《从大数据看民粹主义在欧美的发展动态及其社会基础——基于全球舆情大数据GDELT和社交媒体大数据Twitter的分析》,《社会学刊》第3期。

郝明松,2020,《因果分析中的倾向值分析和熵平衡法》,《社会学刊》第3期。

秦昆、王其新、李爽、罗萍、徐源泉,2020,《计算社会科学与社会地理计算的空间交互网络分析方法》,《社会学刊》第3期。

舒晓灵、陈晶晶,2017,《重新认识“数据驱动”及因果关系:知识发现图谱中的数据挖掘研究》,中国社会科学院《中国社会科学评价》“社会科学研究方法前沿”第3期。

舒晓灵、朱博文,2016,《知识发现与数据挖掘在计算社会科学中的应用》,《贵州师范大学学报》(社会科学版)第6期。

吴锦峰、黄荣贵、桂勇,2020,《社会公平观的网络镜像——基于2013年和2018年微博博文的语义网分析》,《社会学刊》第3期。

张柏杨、贺光烨、陈云松,2020,《“一带一路”的沿线国家和地区关注度:基于互联网大数据的时空分析和影响机制探讨》,《社会学刊》第3期。

赵金旭、金炜玲、孟天广,2019,《司法大数据视角下的涉性犯罪:类型与演变》,《社会学刊》第3期。

Atlantic. 2012. “Everything You Wanted to Know about Data Mining but Were Afraid to Ask.” by Alexander Furnas.Atlantic,April 3. https://www.theatlantic.com/technology/archive/2012/04/everything-you-wanted-to-know-about-data-mining-but-were-afraid-to-ask/255388/.

Bankes,Steven C. 2002. “Agent-based Modeling: Revolution?” Proceedings of the National Academy of Science of the United States of America 99 (S3): 7199-7200.

Dumbill,Edd. 2013. “A Revolution That Will Transform How We Live,Work,and Think: An Interview with the Author of Big Data.” Big Data 1 (2): 73-77. https://doi.org/10.1089/big.2013.0016.

Economist. 2017. “The World's Most Valuable Resource Is No Longer Oil,but Data.” May 6. https://www.economist.com/leaders/2017/05/06/the-worlds-most-valuable-resource-is-no-longer-oil-but-data.

Forbes. 2015. “Data Mining Global News for Economic Uncertainty.” December 14.

Forbes. 2018. “Data Mining Concepts That Business People Should Know.” by Meta S. Brown. July 31. https://www.forbes.com/sites/metabrown/2018/07/31/basics-of-data-mining-that-business-people-should-know/#74504e89515f.

Gilbert,Nigel,Matthijs den Besten,Akos Bontovics,Bart G. W. Craenen,Federico Divina,and A. E. Eiben,Robert Griffioen,Gyorgy Hévízi,Andras Lõrincz,Ben Paechter,Stephan Schuster,Martijn C. Schut,Christian Tzolov,Paul Vogt,and Lu Yang. 2006. “Emerging Artificial Societies through Learning.” Journal of Artificial Societies and Social Simulation 9 (2): 9. http://jasss.soc.surrey.ac.uk/9/2/9.html.

Kramer,Adam,D.I.,E. Jamie,Guillory,and Jeffrey T. Hancock. 2014. “Experimental Evidence Massive-Scale Emotional Contagion through Social Networks.” Proceedings of the National Academy of Sciences 111 (24): 8788-8790.

Laney,Douglas. 2001. “3-D Data Management: Controlling Data Volume,Velocity and Variety.” META Group Research Note,6.

Lazer,David,Alex Pentland,Lada Adamic,Sinan Aral,Albert-László Barabási,Devon Brewer,Nicholas Christakis,Noshir Contractor,James Fowler,Myron Gutmann,Tony Jebara,Gary King,Michael Macy,Deb Roy,and Marshall Van Alstyne. 2009. “Computational Social Science.” Science 323 (5915): 721-723.

Manyika,J.,Chui M.,Brown B.,et al. 2011. Big Data: The Next Frontier for Innovation,Competition,and Productivity. McKinsey Global Institute.

Mason,Winter,Jennifer Wortman Vaughan,and Hanna Wallach. 2014. “Computational Social Science and Social Computing.” Machine Learning 95 (3): 257-260.

Mauro,Andrea De,Marco Greco,and Michele Grimaldi. 2016. “A Formal Definition of Big Data Based on Its Essential Features.” Library Review 65 (3): 122-135. DOI:10.1108/LR-06-2015-0061.

Michel,Jean-Baptiste,Yuan Kui Shen,Aviva Presser Aiden,Adain Veres,Matthew K. Gray,The Google Books Team,Joseph P. Pickett,Dale Hoiberg,Dan Clancy,Peter Norvig,Jon Orwant,Steven Pinker,Martin A Nowak,and Erez Lieberman Aiden. 2011. “Quantitative Analysis of Culture using Millions of Digitized Books.” Science 331: 176.

National Public Radio. 2016. “Big Data Coming in Faster than Biomedical Researchers Can Process It.” by Richard Harris. November 28. http://www.npr.org/sections/health-shots/2016/11/28/503035862/big-data-coming-in-faster-than-biomedical-researchers-can-process-it.

Shah,Nihar,B.,Sivaraman Balakrishnan,Adityanand Guntuboyina,and Martin J. Wainwright. 2017. “Stochastically Transitive Models for Pairwise Comparisons: Statistical and Computational Issues.” IEEE Transactions on Information Theory 63 (2): 934-959.

Shu,Xiaoling. 2020. Knowledge Discovery in the Social Sciences: A Data Mining Approach. University of California Press.

Watts,Duncan J.2013. “Computational Social Science: Exciting Progress and Future Directions.” Bridge on Frontiers of Engineering 43 (4): 5-10.


[1]舒晓灵,加州大学戴维斯分校社会学系教授、东亚研究中心主任,xshu@ucdavis.edu。作者相关最新专著《社会科学中的知识发现:数据挖掘方法》(Knowledge Discovery in the Social Sciences: A Data Mining Approach)由加州大学出版社在2020年出版。