缩略图

历史资料整理中的知识重组:从文献汇编到智慧数据构建

作者

赵秀敏 王新宇

吉林省社会科学院 吉林长春 130033 东北师范大学 吉林长春 130024

1. 从汇编到重组:范式转换的内涵与理论框架

传统的历史资料整理工作,其范式可概括为“文献汇编”。它的核心对象是文献本身,目标是通过考据、校勘、标点、分类等手段,生产出更可靠、更易获取的文献版本或集合(如《中国近代史料丛刊》)。其成果是线性的、静态的,遵循的是“文献单元”的组织逻辑。研究者仍需通过大量阅读,在头脑中自行完成信息的提取、关联与整合,即“知识重组”的过程被留给了研究者个体。

在数据驱动的研究范式下,“知识重组”的概念被前置并外化为资料整理的核心环节。它是指:在文献数字化的基础上,运用现代信息组织技术,对文献内容进行深度析取、标引、关联、建模,将原本孤立、无序的信息点,重构为一个结构化的、机器可读可理解的、相互关联的知识体系的过程。 其核心对象不再是文献载体,而是文献所承载的知识元(如人物、事件、地点、时间、概念等);其成果形态不再是书籍,而是数据库、知识库或知识图谱。

这一范式转换建立在三大理论和技术支柱之上:语义网(SemanticWeb)理念: 其核心是让数据变得机器可理解,通过赋予数据明确的含义(语义),使其能够被自动集成和处理。这为知识重组提供了目标愿景。本体论(Ontology): 在信息科学中,本体是指对特定领域概念及其相互关系的形式化、明确化定义。它为知识重组提供了概念模型和语义框架,是进行结构化标引和关联的蓝图。

知识图谱(Knowledge Graph): 这是一种大规模语义网络,以图结构存储知识,通过节点(实体、概念)和边(关系)来描述客观世界。它是知识重组最理想的输出成果和实现形式。

因此,知识重组代表的是一种根本性的范式提升:整理工作的终点,不再是等待被阅读的“死”的文献,而是可以直接被查询、计算、推理甚至发现的“活”的知识体系。它将研究者脑中的部分认知劳动外部化、显性化、结构化,为历史研究提供了全新的基础设施。

2. 实践路径:知识重组的方法论体系

知识重组的实践是一个系统工程,它遵循一套从数据准备到知识生成的方法论链条,其核心环节包括:

(1)实体抽取与关系挖掘:知识元的析取

这是知识重组的数据基础。利用自然语言处理(NLP)技术,尤其是命名实体识别(NER)和关系抽取(RE)技术,从非结构化的文本中自动识别并提取出关键知识元。

实体抽取: 识别文本中的人名、地名、机构名、时间、官职等。关系抽取: 判断并提取实体之间的关系,如“父子”、“任职于”、“发生于”、“隶属于”等。实践:对《清史稿》传记部分进行processing,可自动抽取出数以万计的人物实体,并初步构建出人物间的亲属、同僚、师生等关系网络。

(2)本体构建与语义增强:知识框架的建立抽取出的原始实体和关系是散乱且意义模糊的,必须通过本体对其进行语义规范化和增强。本体构建: 根据历史学研究的需求,定义核心概念、属性及关系类型。例如,构建一个“明清社会关系本体”,可能需定义“人物”、“事件”、“地点”等类,以及“hasFamilyMember”、“holdsOffice”、“participatedIn”等属性。语义增强: 将抽取出的实体与权威数据库(如CBDB、GeoNames)进行链接,赋予其唯一 ID 和丰富属性;将抽取出的关系与本体中定义的标准关系进行映射,消除歧义。至此,“北京”、“北平”、“Beijing”被统一指向同一地理实体,“丁忧”和“守制”被规范为同一事件类型。

(3)知识图谱构建与可视化:知识网络的生成

在前两步的基础上,将规范后的实体(节点)和关系(边)存入图数据库,即构建成历史知识图谱。这标志着知识重组的初步完成。

应用: 知识图谱支持复杂的语义查询(如 SPARQL 语言)。研究者可以提出诸如“查找所有在乾隆朝既担任过河道总督又担任过漕运总督的人物,并分析他们的交往网络”这样的问题,系统能即时返回结果图谱。可视化: 将知识图谱通过力导图、时间轴、地图等形式进行可视化呈现,使错综复杂的历史关系网络变得直观可视,有助于发现潜在的模式和异常点,激发研究灵感。

3. 革新与挑战:知识重组的学术价值与未来展望

知识重组模式的引入,对历史资料整理乃至历史学研究本身都具有深远的革新意义,同时也伴随着必须审慎应对的挑战。

其革命性价值在于:研究范式的拓展: 它使“宏观计算”与“微观深描”的结合成为可能。学者既能对大规模历史现象进行量化分析(如社会网络分析、职业流动研究),又能瞬间定位到图谱中的任何一个实体及其所有关联细节。新问题的催生: 基于知识图谱的关联查询和可视化,能够揭示传统线性阅读难以发现的隐藏模式和结构关系(如非显性的派系关系、信息的传播路径),从而催生出全新的研究问题。研究效率的飞跃: 它将研究者从低效的信息搜集和整理工作中解放出来,使其能更专注于高层次的解读、分析和理论建构。

其面临的严峻挑战包括:

数据质量与算法偏差: 知识重组的质量完全依赖于底层数据加工的准确性。OCR 错误、NER 的误识别、关系抽取的偏差,都会在重组过程中被放大,形成“垃圾进,垃圾出”的效应。算法的设计本身也可能带入设计者的偏见。

历史语境的剥离风险: 将丰富、多义、充满张力的历史文本简化为结构化的三元组(主体 - 谓语 - 客体),存在剥离历史语境、扁平化历史复杂性的风险。知识图谱难以有效捕捉文本的修辞、情感和隐喻。

技术壁垒与协作成本: 构建高质量的知识图谱需要历史学者、计算机科学家、语言学家等的深度协作,沟通成本和技術门槛较高,难以广泛普及。

未来,知识重组的发展将依赖于人机协作模式的优化。历史学者必须深度介入本体设计、数据标注和结果校验等核心环节,确保重组过程符合历史逻辑。同时,开发更智能、更精准的 NLP 工具,并探索能够捕捉历史不确定性和语境信息的新模型,将是突破当前瓶颈的关键。最终,知识重组的最高目标不应是取代传统考据,而是与之结合,为人文研究者提供更强大的“望远镜”和“显微镜”,共同推动历史学向更精深、更广阔的方向发展。

参考文献

[1] 王晓光. 数字人文:数字时代的知识与批判 [M]. 武汉: 武汉大学出版社 , 2020.

[2] 刘炜, 靳嘉林, 钱国富. 知识图谱与人文研究[J]. 图书情报知识 , 2018(05): 4-12.

[3] 欧石志, 胡韧奋, 诸雨辰. 面向数字人文的古文信息处理技术研究与实践 [J]. 北京大学学报 ( 自然科学版 ), 2021, 57(01): 25-36.

[4] 王军 . 从数字图书馆到智慧图书馆:知识服务的演进与趋势[J]. 中国图书馆学报 , 2022, 48(01): 17-30.