李中清:大数据与中国社会经济史
热文
历史 > 热文 > 正文

李中清:大数据与中国社会经济史

李中清 香港科技大学人文学部及社会科学部讲座教授暨言爱基金社会科学教授

谢谢马敏、付海晏、胡恒给我这个机会介绍我和康文林教授研究团队十几个人近几十年各种不同数据库研究项目与中国古代、近代及当代社会经济史的进展。

大数据研究包括至少六方面:1、data collection(数据收集);2、data input(数据输入);3、data processing(数据运行);4、data analysis(数据分析);5、data discovery(数据发现);6、data release(数据输出)。像一个加速器,要首先收集与整理各种复杂与规模庞大的材料为电脑分析做准备,后要设计加速器的检测器来探讨复杂结果中哪些结果比较重要,然后还要写一种叙述,帮助学界与其他读者理解这些研究项目的重 要意义。 我自己认为,而且我希望,同学们能够利用李康研究团队和别人的大数据库去这样做新的历史的发现。

在中国史方面,我们都熟悉彭慕兰的“大分流”概念。在学界我们认为最大的认识论上的“分流”是理学与人文与社会科学的分流。在科学革命之前,学问都是一样的,都是以解释为主,人们都认为社会、文明、大自然都跟上帝有关,所以学问就是来解释大自然、历史、社会的。可是在科学革命之后,尤其在理学的应用科学方面,我们的方向完全改变了,我们开始知道人类对大自然的理解其实不仅仅是不够的,很多之前的想法甚至是错误的,所以所有的理学,化学、信息、生物学等领域,都是以新的发现为主,化学系没有化学理论教授,生物学系没有生物理论教授。可是人文与社会科学领域的研究仍然还是以解释为主,传统上,我们去图书馆、档案馆之前,都有一个假设、想法,我们是去找证据来证明我们的想法是对的,所以传统的研究方法,第一是以解释为主,第二是以研究者为主,而不是以研究的对象为主。而慢慢地,经过这些数据库的建立,我认为学界的这个认识论上的“大分流”会有一个新的桥梁,把人文与社会科学、理学、应用科学联系起来,但是学术上的影响还是停留在实证研究上,而非多学科的研究。

为什么说大数据对于历史学很重要?历史学研究中渐渐呈现一种具有讽刺意味的趋势,那就是学界越来越重视大数据历史的用处,而越来越不重视传统历史学方法。Google scholar(谷歌学术)2015年的数据显示,1970-2010年,美国史学界与中国史学界的研究成果数量都呈现下降的趋势,而运用大数据分析方法的研究成果数量在逐渐增加,从1975年的0项到2010年的1300项。等于说,历史学领域是有很多很漂亮的项目的,但是我们历史学家却把这些机会让给了其他领域的专家,如果我们能把握这个机会,我们学科的被重视程度会非常不一样。所以我希望我们能够运用大数据分析的方法来慢慢地改变历史学的现状。

在我们的研究团队中,缙绅录数据库现在有接近35万官员的记载,而我们已经收集了200万个人的材料,缙绅录的数据只有不到其中的1/7。让我们来看看这200万人的数据:这200万人中,其中100万人是农村户籍,100万人是城市户籍,即100万人是农民,100万人是专业人才、官员、商人等等;其中100万人来自清朝,包括辽宁双城地区的人口数据库(CMGPD‑LN/SC/IL,1640-1935年,618100人)、清代缙绅数据库(CGED‑Q,1760-1911年,超过340000人)、清代科名数据库(CCSDD,1371-1904年,50000人),100万人来自民国时期及解放后,“文革”之前的材料包括土改时期数据库(CPOD-LR,1946-1948年,454461人)、“四清”时期数据库(CSSCD-SX/HB/GD,1963-1966年,25184人)、大学生数据库(CUSD-ROC/PRC,1912-2004年,300000人),官员、技术人员数据库(CWFD‑ROC/PRC,1912-1956年,超过200000人)。接下来我会简单介绍我们运用这些材料所做的研究。事实上,我们也打算将这些材料能公布的部分全部公布给学界。

我们主要用这些材料来研究Social Behavior(社会行为)、Social Mobility(社会流动)及Social Stratification(社会阶层)。大概40年前我们开始研究社会人口问题;20年前开始研究高等教育问题;十几年前我们又开始研究城乡区域差距问题;最近五六年我们开始了研究职业问题。而关于如何理解中国的社会公平问题,我们可以做一个长时段的比较,一共有四个方面:生存问题,即探讨谁结婚、谁生孩子、谁来照顾孩子等问题;教育及工作问题,即谁接受了中式教育、谁接受了西式教育等问题;财富问题,即城乡财富情况、城乡财富差距、土地改革、农村重建等问题;权力问题,即公务员问题、学历与职位关系问题。我们从这四个大家普遍认为很重要的角度来研究中国的社会公平问题。我认为,经过这样的分析,未来我们面对中国这么一个大而复杂的人口群体时,可以有一个全面的、客观的理解。其实中国和别的国家不一样,别的国家关于财富、政权的材料很少,或者公开的不多,而中国保存的材料很多,这有利于我们做这样的研究。

20年前,我们写了《人类的四分之一: 马尔萨斯的神话与中国的现实, 1700-2000》(One Quarter of Humanity: Malthusian Mythology and Chinese Realities)这本书,大概是我们根据大数据库来做研究的第一本比较有影响的书,当然也要承认学界一开始并不是马上就接受这本书,“新马尔斯萨主义者”的《Life at the Extremes》(《极端的生活》)这一套书就是反对我们的观点。后面我们又编写了三本书和五本杂志。《压力下的生活:1700~1900年欧洲与亚洲的死亡率和生活水平》(Life Under Pressure: Mortality and Living Standards in Europe and Asia)这本书探讨的是1700-1900年欧洲与亚洲人口生存与死亡的问题;Prudence and Pressure: Reproduction and Human Agency in Europe and Asia, 1700-1900(《审慎与压力:1700~1900年欧洲与亚洲的繁殖和人类活动》(Prudence and Pressure: Reproduction and Human Agency in Europe and Asia, 1700-1900)这本书探讨的是1700-1900年欧洲与亚洲人口繁衍的问题;《异中同:1700-1900年欧洲和亚洲的婚姻》(Marriage: Similarity in Difference in Europe and Asia, 1700-1900)这本书探讨的是1700-1900年欧洲与亚洲人口婚姻的问题。

我的指导老师何炳棣先生研究了清朝的科举制度,在The Ladder of Success in Imperial China: Aspects of Social Mobility, 1368-1911 (1962)(《帝制中国的晋升之梯:1368-1911年中国的社会流动问题》)这本书里,何炳棣分析了8230名高学历者、23480名进士、举人、贡生及其他科名者的身份信息,认为19世纪末,高级官员及高科名者的后代在科举考试中考中的比例从60%升至将近70%,其中生员或更高科名者的后代比例从70%升至90%,而普通家庭的孩子占比降至10%。因为我的老师的缘故,所以我就对这个题目比较感兴趣。以往我们都认为明清时期中国的人才选拨制度跟国外相比较为公开,可是到清末,其实90%的科举考试成功者都是成功者的后代,所谓寒门的比例降到10%。在这一论题的基础上,我们开始收集材料,主要是北京大学和苏州大学的材料,即这两所高校的学生学籍卡,我们对这些学籍卡上的信息做了一些简单的分析,后来写了《无声的革命》,我们认为新中国高等教育生源开始多样化,以往为社会上层子女所垄断的状况被打破,工农等阶层的子女逐渐占据相当大的比重,受教育者本人在实现命运转变的同时,也改变了国家和地方精英的身份构成,传统社会中封闭的阶层关系和结构被彻底改变了。《无声的革命:北京大学与苏州大学学生社会来源研究 (1952-2002)》初稿写完之后,因为收集当代一些学校的材料比较困难,梁晨建议我们多搜集民国时期大学的材料,因为那些材料是公开的,不在学校档案馆,而在一些省市档案馆。之后任韵竹又建议我们收集一些大学出版的学生名单及学生毕业后的就业信息,还有一些海外学生的材料。

在我们的计划里,之后还会出版一本书叫《启山林者:中国现代知识阶层的形成,1912-1952》(Our forefathers and the formation of the modern Chinese academe)。这本书包括三个部分,第一部分是“从考试国家到考试社会”,介绍中国的新学校、新学生、新数据;第二部分是“民国大学生”,介绍民国大学生的地理来源与大学分布、家庭背景与亲属关系、社会性别与专业选择;第三部分是“知识阶层转型”,探讨大学生的留学与就业、知识阶层与国家发展。现在全世界很多国家很关注中国的经济发展,我们可以发现中国的知识阶层从1925年的50000人到1950年的35万人,增加了6倍,而知识阶层和国家的经济发展有很大的关系,60年代,中国相当穷,可是火箭、原子弹都可以造,因为有国防的保护,国家的发展跟之前完全不一样了,而且到80年代末90年代初,国家连造一个电梯都比较困难,却可以造最先进的物理分子的计算机,都是跟这批人有关系。所以理解知识阶层对国家社会经济发展的作用也是一个重要议题。我们还建立了中国各种职业人才的信息数据库,我们会利用这批数据库来加深对社会结构、社会流动等问题的研究。

关于大数据及未来的历史学研究,这几天的会议我们将通过缙绅录数据库来探讨powerful(权力)这一议题,我不知道我们之后对于这个powerful(权力)会有什么新的理解,也不知道这一议题能不能继续往下做,我一直觉得我们很幸运,从40年前的研究开始,我们都是在不知道未来会怎么样的情况下这样做过来的。之前我们是研究一种材料,比如北大的本科生、辽宁农村的户口册、双城土改材料,可是未来我们可以从各种不同的数据库找到他们的材料,包括商会、教会的这些材料。

历史的发现就好像17世纪欧洲人往西走,本来他们想发现印度,没想到中间有个美洲。我和康教授常常说,我们出的书跟我们之前刚开始的一些设想结论是完全不一样,或者是我们想找的东西没找到,可是我们还是发现了一些新的东西,就好像发现新大陆一样。所以我们要多开这样的会议,把这些材料传达给你们年轻人。研究全球史的人会说17世纪是the age of discovery(大发现时代),十八世纪是the age of revolutions(革命时代),那么现在可以说我们会进入一种新的the age of discovery,经过几十年,我们对过去的理解和对现在的理解真的会很不一样。

*本文出自于付海晏主编《大数据与中国历史研究》(第3辑),社科文献出版社,2021年9月版。

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载