缩略图

数字人文视域下的历史资料整理新模式

作者

赵秀敏

吉林省社会科学院 吉林长春 130033

1. 范式的革命:数字人文对历史资料整理的重塑

传统的历史资料整理工作,其核心范式是建立在纸张载体之上的“文献中心”模式。其目标在于对文献实体进行鉴别、校勘、分类、汇编,最终成果是诸如校点本、史料汇编、丛书等出版物。这一模式固然成就辉煌,但其局限性也显而易见:工作周期漫长、信息检索效率低下、文献间深层次关联难以揭示,且整理成果是静态、封闭的文本。

数字人文(Digital Humanities)的兴起,以其全新的理念和技术体系,对传统范式进行了深刻的重塑,催生了历史资料整理的“数字转向”。这一范式革命主要体现在三个维度:

从“载体修复”到“数据重构”: 工作的核心对象从物理文献实体转变为数字化的数据。整理的目的不再是单纯修复和保护纸张,而是将文献内容转化为机器可读、可处理的结构化数据。这一过程包括文本编码(如使用 TEI 标准)、元数据著录、实体(人名、地名、事件)抽取等,本质上是将非结构化的历史文本重构为一个结构化的历史信息数据库。

从“实体汇编”到“虚拟聚合”: 传统整理受物理空间所限,汇编的文献规模有限。数字环境下,借助网络和数据库技术,可以打破时空与机构壁垒,将散藏于全球各地、不同类型(文本、图像、音频、地图)的史料资源在虚拟空间中进行聚合与互相关联。例如,“中国历代人物传记资料库”(CBDB)就聚合了海量散见于史书、笔记、方志中的人物信息,形成了一个传统方法无法企及的宏观量化分析基础。

从“专家之学”到“跨界协作”: 传统整理主要依赖历史学家和文献学家的个人学识。数字人文项目则必然要求历史学者、计算机科学家、数据科学家、图书档案专家、设计人员等的深度跨界协作。历史学者提出研究问题,计算机专家提供技术实现路径,共同设计数据模型、开发分析工具、解读运算结果。整理工作变成一个复杂的系统工程。

2. 模式的创新:数字人文整理新方法的实践路径

在数字人文的具体实践中,历史资料整理呈现出多种创新模式,它们远超简单的“扫描上网”,而是深度介入对史料内容的加工、关联与阐释。

文本数字化与深度标引:这是最基础也是最关键的环节。其目标不仅是生产数字图像,更是生成可供计算的结构化文本。这通常通过以下步骤实现:

文本编码: 采用TEI(文本编码倡议)等XML 标准对全文进行标记,不仅记录文本内容,还标注段落、章节、笔迹、删改等形态特征。实体识别(NER): 利用自然语言处理(NLP)技术,自动识别并标注文本中的人名、地名、官职、时间、事件等关键实体。

(1)深度标引: 将识别出的实体与权威数据库(如 CBDB、GeoNames)进行关联,赋予其唯一 ID,使其不再是孤立的字符串,而是成为全球知识网络中的一个节点。示例: 对《清实录》进行上述处理後,研究者可以瞬间找出所有涉及“李鸿章”且发生在“天津”的条目,效率远超传统通读。

(2)数据关联与知识图谱构建:在深度标引的基础上,新模式的核心在于建立关联。通过定义实体间的关系(如“出生于”“任职于”“隶属于”),将碎片化的数据点连接成一张巨大的、语义化的知识图谱(Knowledge Graph)。实践: 利用 SPARQL 等查询语言,研究者可以在这张图谱中进行复杂的语义查询,例如:“查找所有在乾隆年间于江苏担任过知府、且是进士出身的人物,并分析他们的籍贯分布”。知识图谱将分散在不同文献中的信息片段自动聚合,揭示了隐藏的人物关系网、事件因果链和社会权力结构,实现了对学术“源流”的动态考镜。

(3)空间分析与可视化呈现:

历史本身是在时空坐标系中展开的。数字人文整合地理信息系统

(GIS),赋予了史料整理强大的空间维度。实践: 将史料中提取的地点信息进行地理坐标匹配,落于历史地图或现代地图上,形成“历史GIS”。例如,“中国历史地理信息系统”(CHGIS)和“唐宋文学编年地图”等项目,将文人行踪、战争路线、人口迁移、物资流通等数据可视化,使研究者能够直观地分析历史事件的空间分布、扩散模式与环境关系,提出了“空间转向”下的新历史议题。

这三种模式并非割裂,而是层层递进、相互融合,共同构成了数字人文视域下史料整理的新方法论体系,其产出不再是书籍,而是交互式的数据库、知识平台和研究工具。

3. 前瞻与反思:新模式的效能、挑战与未来走向

数字人文整理新模式极大地释放了历史研究的潜能,但其应用也伴随着必须正视的挑战和需要反思的理论问题。

其革命性效能体现在:研究范式的扩容: 它使宏观计算和微观分析得以结合。学者既能对数十万卷文献进行趋势分析(如主题建模、词频分析),又能瞬间定位到某一具体人物的细节记录。新问题的催生:基于大规模数据关联和可视化,能够发现传统阅读无法察觉的模式和异常,从而提出新的研究问题,如基于通信网络分析思想流派的影响力,基于物资流通数据重新评估区域经济联系。

学术资源的民主化: 高质量的数字化史料和开源工具降低了学术研究的门槛,促进了全球学者的协作与共享。

其面临的严峻挑战包括:

数据质量与真实性陷阱: “垃圾进,垃圾出”(Garbage in, garbageout)原则在此依然适用。OCR 识别错误、标引偏差、数据模型的设计缺陷,都会导致错误结论。历史学者必须对数据来源、加工过程保持批判性审视。

未来,数字人文视域下的史料整理将朝着更深度的语义化、更智能的人机协作、更规范的伦理标准方向发展。历史学者不仅需要成为数据的使用者,更需成为数据模型的设计者和批判者。最终,新模式的成功不在于技术的炫酷,而在于它是否能够真正帮助我们提出并解答更有意义的历史问题,是否能在“远读”与“细读”之间、在“量化”与“质性”之间建立辩证的桥梁,最终深化而非削弱我们对人类过去的理解。

参考文献

[1] 王晓光. 数字人文:数字时代的知识与批判[M]. 武汉: 武汉大学出版社 , 2020.

[2] 包弼德 , 等 . 数字人文与中国研究 [J]. 文史哲 , 2017(06):5-25+165 .

[3] 金观涛, 刘青峰. 观念史研究: 中国现代重要政治术语的形成 [M]. 北京 : 法律出版社 , 2009.

[4] 李惠, 陈刚. 数字人文视角下的历史GIS 研究[J]. 地球信息科学学报 , 2018, 20(07): 871-879.

[5] 刘炜, 叶鹰. 数字人文的技术体系与理论结构探讨[J]. 中国图书馆学报 , 2017, 43(05): 32-41.

[6] 施畅 . 数字史学:理论、方法与实践 [J]. 史学理论研究 ,2020(02): 99-111+160.

[7] 王军 . 从人文计算到可视化——数字人文的发展脉络与趋势[J]. 大学图书馆学报 , 2020, 38(02): 5-15.