纸质档案数字化著录工作中的思考
王馨裕
纪检系统 呼和浩特青城巷一号 010000
一、引言
当前随着十四五档案规划的大力推进,大数据、人工智能、区块链等新一代技术普及应用带来了档案工作环境、对象、内容的重大变化,迫切需要创新档案工作理念、方法、模式,加快全面数字转型和管理升级,纸质档案数字化更是整个工作的重要基础,纸质档案数字化是以纸质的文字和图片等为载体的档案信息通过计算机技术和扫描技术转变为数字化的档案信息,利用设备提供利用从而实现档案信息的及时共享。作为一名基层档案工作人员,在长期的数字化工作中我积累了一定的经验,发现许多大家容易出现问题的地方,想在此针对纸质档案数字化整个过程中著录工作需要注意的一些问题与大家进行探讨。
二.机关智能档案室现状及其工作要求
截至 2024 年 12 月 31 日,机关智能档案室在档案收集与整理 、利用与服务等方面成果显著,目前接收了大量不同类型的档案,其中案件档案和文书档案已经完成库 的数字 整理与分类工作。在档案利用服务上,档案室积极发挥资源价值,辅助办案科室千余人次借阅 0 余卷(件、张)。同时,凭借丰富的档案资源与完善的管理体系,接待了来自各省、盟市的同行参观团百余次,充分展示了机关智能档案室的建设成果与工作经验。
机关智能档案室的建设与完善,为纪检监察机关在深度分析、过程研判、审查调查以及优化服务等方面提供了可靠依据和便捷手段,有力推动了纪检监察机关党风廉政建设和反腐败工作朝着更加精准、更具预见性的方向发展,为维护政治生态的风清气正发挥了重要作用 。
目前我们档案室接收案卷需要 目录 ,其中挂接目录分为文件级和案卷级。案卷 涉案人员姓名、归档日期、密级 档号 文件编号、卷内序号 归档部门等字段 ,那案卷级目录需 的页数,而件级 写的内容和花费的时间就呈 几何式增长, 故 4 中出错率大大提高。
三、纸质档案数字化著录过程中最常出现的问题及原因
(一)人工录入效率低且易出错
之前的著录工作主要依赖人工录入,耗时较长且出错率高,需要反复修改才能完成挂接。
(二)数据格式不规范
著录时未将挂接目录 EXCEL 表格中成文时间和归档日期两个字段所在列设置为文本格式。例如,文件级目录里的成文时间和归档日期虽按 ****-**-**(*代表年、月、日) 格式录入,但是点击右键【设置单元格式】→【文本】后日期变为********,上传系统后会提示成文时间不是正确日期格式。
(三)字段对应不准确
著录的数据与档案原有数据不一致,建立的对应关系不准确。比如在填写年度、门类和起止时间三个字段时,下拉单元格应选择复制单元格而非填充序列(适用于同一年度、门类和起止时间),否则上传档案数字化系统后,在对应的门类里找不到数据,无法匹配正确案卷。
(四)信息不完整
档案著录的信息存在不完整、简写、组织机构不清晰等问题,无法全面记录和描述档案的各种属性,在数字化系统中加大了检索难度,甚至可能导致无法检索到相关档案。这一问题在题名、公开题名、责任人内容较多、较长的情况下尤为突出。
(五)总页数和件数不一致
文件级目录和案卷级目录里的总页数和件数各自求和不相等。这主要是因为案卷数量和每卷件数数量庞大,录入时容易忘记填写文级目录里最后一条即案卷封面的页数和其它数据。
(六)年度数据错误
多个不同年度案卷的文件级目录和案卷级目录整合在两张 EXCEL 表里时,常出现年度字段里填写的数据与纸质案卷、档号中的年度不一致的情况。例如,纸质案卷有多卷,各卷起止日期不同,录入时年度、起止日期、档号容易填充错误。
(七)数据格式设置错误
案卷级目录里的总页数和文件级目录里的页数这两列在录入时经常被设置为文本格式,导致无法正确求和。
(八)特殊字符影响识别
工作人员在填写案卷级目录里的题名和公开题名这两个字段时,为录入方便常使用回车换行符,但这样的数据在上传系统时无法被识
别。
图(2)

四、著录过程中出现问题的对策(一)利用 Word 提取数据制作挂接目录若有 Word 版本的卷内目录,可按以下步骤提取到 Excel 表中制作挂接目录:
1.新建一个 EXCEL 表,包含表一(文本目录整理)、表二(整理后数据)两个空表,表三(文件级目录)和表四(案卷级目录)提前输入公式,然后保存。
2.将准备提取的 word 版本的卷内目录放在一个文件夹里命名为某某卷卷内目录,并排序。
3.新建一个 word,点击插入,选择 “对象”→文件中的文字→点击左侧选择卷内目录这个文件夹,在中间的列表里根据需要全选或者跳选需要的卷内目录→点击插入,使所有需要提取的卷内目录都在一个 word 里。
4.新建的卷内目录里有许多回车键需要删除,全选所有内容点击 Ctrl + H,在查找内容里用英文输入法输入 “shift6 + p” 即 ^p,然后点击全部替换。
5.把替换完的卷内目录粘贴到文本文档里, 到提取数据的 Excel 模板里的表一:文本目录整理。接着删除表格里不需要的空行,全选 A - 整 选全选、勾选空白、点击确定,筛选出所有空行,全选没有内容的空单元格点击删除整行, 永久 列数据,点击 “永久” 列的筛选→勾选全选、勾选 “永久”、点击确定,全选 A - C 整列 点击 Delete 键清空这三列,然后再回到 “永久” 列清空筛选条件。
6.把文本目录整理好的数据粘贴到命名为整理后数据的表 2,自动生成表 3 和表 4,对于一些无法提取的数据,手动填写。若没有公式,可直接在表一里筛选粘贴有用信息。该方法适用于案卷较多的情况,在 Excel 表中完成操作,保密效果好。
(二)利用软件提取数据
若没有电子版的卷内目录但有纸质版,可利用 ABBYY FineReader 12 Sprint 软件(中文版)把扫描好的卷内目录的图片转换成 Word 版本或者 Excel 版本另存,提取所需数据信息粘贴到挂接目录中,完成后需进行校对,删除空行等。但该软件无法识别蒙文、手写体及一些特殊符号,此方法适用于案卷较少的情况,使用前需查看该软件是否能在国产电脑上安装。
采用上述两种方法,假设 10 本案卷,110 条目录的数据,以前人工录入需要一上午时间,现在不到一个小时就能完成,大大降低了人工成本和出错率。
(三)针对不同问题的具体解决方法
1.修正数据格式:若已制作好挂接目录且存在成文时间格式错误问题,先新建一个 EXCEL 表,把文件级目录里的成文时间这一列全选粘贴到新建的表里,选中数据区域,单击【数据】选项卡,点击【分列】→【下一步】→【下一步】,勾选【日期】YMD,把目标区域框里的定位数值删除,选择 C2 单元格(若不选择,会覆盖原数据),点击【完成】。
图(3)

选中 C 这一列数据,点击右键选择【设置单元格式】→【自定义】
dd - mmmm - yy 修改为 yyyy - mm - dd,点击确定,日期变为带横线的年月日并保存。将之前文件级目录里错误的成文时间那一列设置为文本格式,新建一个文本文档,把保存的正确格式的数据粘贴到文本文档里,再复制粘贴到文件级目录成文时间那一列,完成修改。注意,必须先将错误列设置为文本格式再粘贴正确数据,否则挂接时系统无法识别。
2 筛选修正错误字段:通过筛选功能找出年度、门类、起止时间的错误之处,进行修改补充完整
3.人工比对修正数据:对于著录的数据与档案原有数据不一致的问题,目前只能通过人工比对纸质案卷或者电子案卷和挂接目录来修补充完整数据。
4.核对页数和件数:人工比对纸质案卷或者电子案卷和挂接目录的两张表,找到对应案卷里页数和件数的错误之处进行修改,补充完整每卷最后一条的案卷封面的所有字段数据。另外,利用挂接目录给 PDF 加档号时,若 PDF 数量与文件级目录件数不一致,可反向查找文件级目录里档号、序号的问题,这也是解决件数不对的一种方法。
5.统一年度数据:用筛选功能把同一年度的数据筛选出来与纸质案卷或者电子案卷进行比对,修改年度、起止时间的同时,务必记得修改档号里的年度。在复查和挂接时,常出现只修改年度、起止时间,忘记修改档号里年度的情况,导致目录导入档案数字化系统后错误数据位置变化,无法匹配对应案卷,在系统里查找错误数据会耗费大量时间。
6.转换数据格式以便求和:选中页数和件数中左上角带有三角形的单元格,点击单元格左上角灰色长方形里的倒三角,选择 “转换为数字”,使所有数据变为数字,即可正常求和。
7.清除特殊字符:在案卷级目录里的题名旁边插入一列,在 E2 单元格里用英文输入法输入
CLEAN”,双击选择这个函数,点击左侧的 D2 单元格,输入右括号,使函数变成
CLEAN (D2)”,按下回车键,换行符自动清除。鼠标移到 E2 单元格右下角,双击鼠标左键向下填充,可清除所有回车换行符。若按此步骤无法替换,可先把题名这一列的数据粘贴到一个新的 Excel 表中,在旁边空白单元格里按上述步骤操作,把新填充出的这列数据粘贴到一个文本文档里,再把文本文档里的数据粘贴到题名和公开题名这两列里,同样可替换回车换行符。
五.挂接目录的新用途
纸质档案数字化过程中,手动给每卷PDF 加档号工作量很大。我们可以利用挂接目录在几分钟内完成此项工作。
以往给 PDF 版案卷里的每一件加档号,需打开软件 “BUIk Rename Utility”,在前缀栏中输入档号(例:A059 - 2020.AJ02 - Y -5375 - ),设置栏左侧选择需要改名的某一卷 PDF 文件夹,点击 CTRL + A 全选,然后点击 CTRL + R 进行整卷替换下一级文件夹名称。
现在将整套案卷的电子卷或者 PDF 版分为三级文件夹,一级文件夹以案卷名称命名,二级文件夹名称为每卷案卷对应的案卷号,三级文件夹名称从 001 开始顺延。
利用挂接目录实现 PDF 快速加档号的操作如下:在文件级目录里找到 Q 列 Q2 单元格,切换为英文输入法,输入公式 Σ=Σ CONCAT(“ren”, “ ”,E2, “\”,I2,“ ”,G2) 或者 = CONCAT (“ren ”,E2,“\”,I2,“ G2)(两个公式选一个即可,其中 E2 代表案卷号,I2 代表文件夹目录里的卷内序号,G2 代表文件级目录里的档号),输入完成后点击回车键,然后点击 G2 单元格右下角的十字光标拖动到该文件级目录的最后一行。
新建一个文本文档,将扩展名改为.bat 并重命名为运行代码,复制文件级目录里新拖动出这一列数据,右键点击运行代码选择编辑功能,粘贴数据后保存,左键双击运行代码,电子卷或者 PDF 版案卷二级文件夹的名称全部替换完成。之后在检索栏里输入全宗号搜索全部PDF,查看电脑左下角的 PDF 数量是否与文件级目录的件数一致。若不一致,返回 PDF 案卷二级文件夹查找哪一卷的哪一件没有加上档号,这也表明该件在对应的文件级目录里的档号、序号存在问题,导致代码无法运行,同时也是解决件数不对的另一种方法(以上适用WPS 版本)。
∗ 、结语
在数字化浪潮的推动下,档案著录工作被赋予了全新内涵与更高要求。它不仅要满足人工阅读的基本需求,更要契合计算机自动处理的高效逻辑以及数字信息检索的精准便捷,以适应不断变化的多样化著录环境。作为档案工作者,肩负着重大历史使命。我们应深入学习贯彻党的二十大精神,全面落实习近平总书记关于档案工作的一系列重要指示,紧密结合档案工作实际,正视工作中存在的问题与挑战,补齐短板、强化弱项,我们应以更高标准、更严要求做好这份工作,让档案工作在服务党和国家工作大局、服务人民群众的过程中发挥更大作用。