数字人文视域下地方志文献的知识图谱构建
赵秀敏 王新宇
吉林省社会科学院 吉林省长春市 东北师范大学 吉林省长春市 长春市 130033
1. 数字人文与地方志文献融合的理论基础
1.1 数字人文的发展脉络与核心特征
数字人文起源于 20 世纪 40 年代的人文计算,经历了从计量分析到智能处理的演进过程,其核心特征体现在方法论创新、跨学科融合和技术驱动三个方面。在方法论层面,数字人文突破了传统人文研究的个体思辨模式,通过数据挖掘和可视化技术实现宏观文化模式识别,如哈佛大学的”中国历代人物传记资料库”(CBDB)已收录约 50 万历史人物数据。跨学科特性表现为计算机科学、地理信息系统与历史学的深度交叉,斯坦福大学的”空间历史项目”通过 GIS 技术重现了丝绸之路线路变迁。最新趋势显示,数字人文正从单一文本分析向多模态(文本、图像、空间)综合研究发展,为地方志这类复合型文献提供了全新研究路径。
1.2 地方志文献的数字化价值挖掘
地方志作为系统记录地区自然、经济、社会状况的文献,具有独特的数字化价值。从内容特征看,方志包含”横排门类、纵述史实”的立体知识结构,明清方志通常设有 30 余个门类,形成完整的区域知识体系,这种结构化特征特别适合知识图谱构建。从文化价值看,地方志是地域文化记忆的核心载体,数字化可解决原本保存分散、利用困难的问题,如国家图书馆的”数字方志”项目已整合 2 万余种方志资源。数字化还能激活方志的当代应用价值,如气候史研究利用方志中的灾异记录重建历史气候模型,经济史研究通过赋税数据分析区域经济变迁。这些应用都依赖于从传统线性阅读转向结构化知识提取的技术突破。
2. 地方志知识图谱构建的方法论体系
2.1 数据采集与预处理框架
地方志知识图谱构建面临多源异构数据挑战,需建立系统化的采集与处理流程。数据获取方面,需整合影印本(如《中国地方志集成》)、整理校注本(如各地出版的方志丛书)和已有数据库(如爱如生方志库),形成互补性数据源,南京图书馆的方志数字化项目采用了这种混合策略。OCR 技术应用存在特殊难点,方志的竖排、繁体、无句读等特征使识别准确率仅约 85% ,需结合深度学习(如 CRNN 模型)和人工校对提升质量,国家图书馆采用”AI 初校 + 专家复校”模式使准确率达 98% 。文本清洗需处理大量历史用语和异体字,如”税粮”可能写作”税糧”,需构建包含 10 万余条目的历史术语词典进行归一化。实体标注是预处理关键环节,采用BIO 标注体系标记人名、地名、官职等实体,北京大学方志标注规范已标记 200 余万实体。数据增强技术可弥补方志记载不全的问题,通过同时期文集、档案等补充数据,清华大学清史项目通过这种方法填补了 30% 的人物关系空缺。质量控制体系必不可少,需建立覆盖字符级、实体级和关系级的三层校验机制,确保数据可信度。
2.2 本体模型设计与构建
地方志本体模型设计需要兼顾历史特性和计算需求,形成多维知识表示体系。核心本体类别应包括人物、地点、事件、制度、物产等方志常见门类,上海图书馆设计的方志本体包含 9 个大类 56 个小类。时空本体是特色组成部分,采用 CIDOC CRM 标准表示历史时间(如年号纪年转换)和空间关系(如古今地名对应),”中国历史地理信息系统”(CHGIS)提供了重要参照。事件本体建模挑战最大,需用事件为中心的方法关联参与者、时间、地点等要素,复旦大学开发的”历史事件本体”能表示200 余种事件类型。民俗文化术语需要特殊处理,如”庙会””赛神”等活动需建立专门的民俗活动本体,浙江大学的”江南民俗知识图谱”包含500 余个民俗概念。本体构建方法推荐采用”自上而下”(参考现有标准)与”自下而上”(从数据归纳)相结合,中国人民大学的方志本体项目通过这种方法发现了 30 余个新关系类型。本体评估同样重要,采用覆盖率(概念完整性)、一致性(逻辑矛盾)和实用性(查询效率)三维度指标,理想本体应在这三个方面均达到 85% 以上。
3. 应用实践与发展前瞻
3.1 实证研究
以《江南通志》为案例的知识图谱构建展示了完整技术路线。数据准备阶段数字化乾隆元年刻本共 800 卷,采用混合 OCR 方案使文字识别准确率达 96.5% 。本体设计包含 11 个核心类(如人物、官署、水利工程)和 58 种关系类型(如任职、修建、隶属),覆盖方志 90% 以上内容。知识抽取环节标注了3.2 万个命名实体(人物1.2 万、地名1.5 万、官职0.5 万)和5.6 万条关系,其中人物关系网络包含1.8 万个节点和3.4万条边。系统实现采用 Neo4j 图形数据库存储知识图谱,开发了包含时空导航、关系探索和专题分析三大功能的可视化平台,查询响应时间平均为 0.8 秒。效果评估显示,与传统检索相比,知识图谱使关联发现效率提升 7 倍,在进士群体流动分析、水利设施分布等研究中发现新线索23 处。
3.2 应用场景与价值分析
地方志知识图谱在多个领域展现出应用价值。学术研究方面,通过时空可视化分析明清松江府进士的时空分布,发现其与棉纺织业中心的高度重合,为”士商互动”研究提供新证据;关系网络分析揭示了以往被忽视的师承群体,补充了 3 个理学流派传承谱系。文化传承领域,基于图谱开发的”方志故事生成系统”自动产出200 余篇地方历史短文,用于中小学乡土教育,测试显示学生记忆留存率提高 55% 。特别值得注意的是,这些应用产生了数据反哺效应,用户贡献的校正信息和新增关联使知识图谱持续进化,形成良性循环。
3.3 技术挑战与应对策略
地方志知识图谱构建面临诸多技术挑战。古籍文本处理方面,异体字、避讳字等导致实体识别准确率波动,采用对抗训练方法使模型鲁棒性提升 25% ;残缺文本理解困难,通过同时期文献跨文档信息补全,某案例填补了 40% 的属性空缺。历史语义理解瓶颈突出,如”巡抚”在不同时期的职权差异,构建历时性术语表包含 500 余个官职的演变说明。未来需重点突破历史语境理解、小样本关系学习等关键技术,同时建立方志知识图谱的标准规范,促进资源共享。短期策略建议聚焦特定时期或区域,积累经验后再扩展;中长期应构建全国性方志知识图谱基础设施,最终形成全球方志关联数据网络。
参考文献:
[1] 王晓光 , 徐雷 . 数字人文研究方法论探析 [J]. 中国图书馆学报 ,2021,47(3):4- 18.
[2] Moretti, F. (2021). Digital Humanities and Historical K nowledge.Stanford University Pres .
[3] 郑永晓, 刘石. 地方志知识图谱构建关键技术研究[J]. 数字图书馆论坛 , 2022(5):23- 35.
[4] Bodenhamer, D.J. et al. (2023). T he Spatial Humanities: GIS and theFuture of Humanities Scholarship. Indiana University Pres .
[5] 中国地方志指导小组办公室 . 全国地方志数字化发展报告 [R ].2023.