(图片来源于网络)
数字化历史报纸数据库提供了宝贵的研究工具。越来越多的学者利用这些数据库来进行学术研究。美国范德堡大学的Brian Beach和西北大学的W. Walker Hanlon于2023年10月合作发表在Explorations in Economic History的论文 “Historical newspaper data: A researcher’s guide”讨论了历史报纸数据库的使用现状和使用方法。作者回顾了现有运用历史报纸数据进行研究的文献,并提供了历史报纸数据的工具包和历史报纸数据的使用指南。
文献回顾:报纸数据在现有文献中的应用
报纸数据可以分为两类:数字化报纸文章数据和报纸目录数据。对于数字化报纸文章数据,作者按照其在研究中所起的不同作用对相关文献进行了总结。
报纸数据在文献中有6种使用方式:1.用来衡量处理效应,从而构造关键解释变量。2.通过是否受到报纸报道(提高了受关注程度)来构造处理变量。3.用来构建感兴趣的结果变量。4.同时使用报纸数据来构造处理变量和结果变量。5.有的研究关注新闻报道和报纸本身的行为,利用报纸本身的行为构建结果变量。6.被用于补充和改进其他数据集。对于报纸目录数据,其作用主要有二:一是用来了解媒体市场,二是提高从报纸档案中提取数据的有用性。
背景介绍:报纸的起源与发展
报纸所处的环境决定了哪些新闻被刊登出来,因此有必要对报业的环境特征演变进行介绍。报业的发展可以分为三个时期。第一,从16世纪60年代英国第一份报纸出版到18世纪末的“印刷时代”。报纸通常作为印刷业务的一部分,在很大程度上是政府或其他有权势赞助人的喉舌。
第二,从19世纪初到19世纪中后期的“编辑时代”。这一时期报纸越来越多地聘请专职编辑和记者,报道的准确性和及时性得到了提高。新闻采编机构主要受到有权势编辑的控制。
第三,19世纪80年代之后的“出版商时代”。遍布全国的连锁报业逐渐形成,报业的控制权从编辑转移到了出版商手中。相比于维多利亚时代的报纸,现代主义报纸具有条目更少、版面更大、标题更大、层次清晰的特征。
历史报纸数据库的使用与评估
首先,作者回顾了现有研究使用的主要数据库。作者发现,经济学领域使用历史报刊数据的研究大多都来自美国和英国。英国方面,所有研究都使用了英国报纸档案馆中的数据。相比之下,美国的研究则使用了多种来源,包括 Ancestry 的 Newspapers.com, 美国国会图书馆的 Chronicling America 数据库, Readex 的 Early American Newspaper Archive, NewspaperArchive.com, Proquest Historical Newspapers, Gale’s Nineteenth Century Newspaper Archive等。Newspapers.com 是迄今为止使用最多的数据库。作者通过在数据库中搜索中性词“星期一”来考察各个数据库的档案覆盖范围,结果如表1所示。
表1 英美不同报纸数据库的信息容量
说明:1.表格中的数据表示自开始日期后的十年间“星期一”被搜索到的次数。如1700指代的是1700.1.1~1709.12.31;其后的数字“33”表示的是在British Newspaper Archive数据库中这十年间 “星期一”一词出现的次数。2.该结果基于2022年4月的搜索数据。
美国的《纽约时报》和《华尔街日报》以及英国的《泰晤士报》、《卫报》和《经济学人》等主要报纸通常不会出现在数字化报纸数据库中。这些报纸一般都有自己的历史档案库,必须通过单独的订阅服务才能访问。美国和英国以外的数字化历史报纸数据库尚未得到广泛应用。
接着,作者讨论了历史报纸数据挖掘方法。在从历史报纸数据库提取数据时,信息的提取和利用程度往往受到系统的限制。目前只有美国国会图书馆的 Chronicling America 数据库允许研究人员下载相关文章数据,其他数据库必须使用数据商提供的搜索门户才能访问。因此,大多数研究采用搜索一个或几个关键词的方法来识别特定类型的事件。
此外,作者介绍了报纸目录的使用方法,并对现有数字报纸数据库的覆盖范围进行评估。报纸的目录是一个很有价值的工具。它提供了相当全面的现有报纸清单和其他有用信息,如每份报纸的政治派别、报道内容范围、价格及出版频率等。
图1 1847 年《报纸新闻目录》中数据示例
但是,目前数字化的目录版本较少。作者数字化了1910年美国所有报纸的全套目录数据和1895年英国除伦敦以外的报纸目录数据,这两份数据可以在文章的复制包中获得。通过将这两个目录与相关研究使用的主要报纸数据库进行比对,作者发现:现有的报纸目录只涵盖了特定环境中报纸的一小部分,美国报纸数据库各州的覆盖率差异很大。这意味着在使用报纸数据时的报纸选择很重要。
数据使用挑战和解决方法
使用数字化历史报纸数据的核心挑战是样本选择问题。文章提供了一些可能的解决方法:1.调整覆盖范围。历史报纸数据库的一个标准用途是将某类数据的空间或时间分布与其他变量进行比较。这类数据的出现频率可能会受到所使用数据库中基本报纸集的影响,带来选择偏差。一种简单的方法是将原始的搜索“命中”数除以适当的分母,这样就可以根据相对于报纸基本分布的命中率进行分析。
2.数据加权。对于使用报纸数据作为结果变量的研究,即使存在内生抽样,也可以通过适当的加权回归得到一致的结果。
3.改进识别策略。通过目录中提供的每份报纸的信息,我们可以确定报纸档案中的报纸是根据哪些方面进行选择的,并评估这种选择是否会对特定的分析方法造成问题。
总 结
迄今为止,使用历史报纸数据库进行研究的选题和范围都相当集中。展望未来,作者预计使用历史报纸数据库的研究将继续增长。未来研究可能的两个方向是:第一,超越关键词查询,加深对报纸报道如何随时间和空间演变的理解;第二,将数字化报纸的内容信息与目录中有关报纸市场的详细信息结合起来,这有助于理解媒体市场的演变及其影响。
轮值主编:蒋 勤 责任编辑:彭雪梅
“特别声明:以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布,本平台仅提供信息存储空间服务。
Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”