浅谈彝文OCR中的字符切割的问题
阿别木呷 邱金华 阿尔阿且
1.四川财经职业学院会计学院 四川成都 610101 2.西昌学院彝族文化研究中心 四川西昌 615013 3.四川财经职业学院工商学院 四川成都 610101
摘要:在彝文OCR(光学字符识别)中,字符切割是将需要识别图像中的文本分割成单独的字符或字形的过程,通常涉及识别字符的边界和特征,从而确保每个字符都能被单独处理和识别,是OCR系统中不可或缺的一部分,此文主要是从边缘检测方面对彝文字符进行切割的实践并提出目前存在问题,为后续的彝文OCR提供训练库和研究基础。
关键词:彝文,OCR,字符切割
1.字符切割概述
“字符切割”从字面意思不难理解,例如在阅读一段文字中,把每个文字独立区分出来。在英文中是以空格来区分,因此在进行计算切割中可能会较亚洲文字而言相对容易。然在亚洲文字中,因为文字自身特殊性,如结构,书写等特点,在切割中容易出现粘连,切割错误等情况。以亚洲具有代表性汉字为例,由于没有空格的参与,“哟”在切割中可能分割成“口”“纟”“勺”或者“口”“约”等各种情况。“翼”这两个文字来说,可能会被分成“羽”“田”“共”等。
在彝文OCR(光学字符识别)中,字符切割是将识别的彝文图像中文本分割成单独的字符或字形的过程,字符切割是实现文本解析和信息提取的基础,通常涉及识别字符的边界和特征,从而确保每个字符都能被单独处理和识别,是OCR系统中不可或缺的一部分。
在传统的彝文OCR中,字符切割一是提高识别精度,将文本分割成独立的字符,有助于提高后续彝文识别算法的准确性和效率。二是减少干扰,切割后可以避免字符之间的干扰,特别是在字符挨得很近或重叠时,单独处理每个彝文字符能有效减少错误。三是特征提取,提供独立的字符图像,有助于提取彝文字符的特征,并用于后续的分类和识别过程。
2.彝文字符切割的意义
通过1字符切割概述可以知道,不论哪类语言的字符,在传统的OCR技术中,字符切割是将图像中的文本区域进行分割,字符切割决定了识别的精度同时也简化后续的步骤。彝文字符切割的作用和意义在于:
(1)提高识别精度:通过将图像中的字符清晰切割,可以独立识别每一个字符,从而有助于提高识别的准确性。
(2)简化处理:在字符切割后,可以对每个字符进行单独处理,便于后续的特征提取和分类。
尽管现代OCR技术在某些情况下能够省略字符切割,字符切割的意义依然存在:
(1)特定场景下的必要性:在某些特定应用,如处理复杂的布局、低质量图像、重叠字符等情况下,字符切割仍然可能提高识别的准确性。
(2)模型效率:在某些情况下,将图像切割成字符或小块可以让模型更有效地学习特征,尤其是在处理大量数据时。
(3)降噪和预处理:字符切割作为图像预处理的一部分,在去噪、纠正扭曲、调整字体大小等方面依然会有帮助,可以提升后续处理的质量。
综上所述,现代OCR技术虽然能减少对字符切割的依赖,但字符切割并没有完全失去其作用和意义。字符切割在特定情况下仍然是一个重要的处理步骤,可以提升整体识别效果。尤其是对彝文字符而言,字符的切割对彝文字符训练库的建立提供了支持,也为后续的彝文OCR奠定研究基础。
3.彝文字符切割的研究现状
目前而言,各大期刊文献未检索到专门针对彝文字符切割类的文献,通常字符的切割主要包含在OCR的研究中。主流的字符切割为以下方法:
(1)基于阈值的方法:将图像转换为二值图像,通过设定阈值来区分字符和背景。其优点是简单易实现,计算效率高;缺点是对光照变化敏感,在低对比度图像中效果差。
(2)边缘检测的方法:使用边缘检测算法(如Canny算法)来识别字符的轮廓。其优点是能有效识别字符边缘,对字符的形状具有高度敏感性。缺点是在复杂背景中,可能误检其他边缘,需要进行后处理来连接边缘。
(3)连通域分析的方法:将二值图像中相连的像素区域作为字符进行检测。其优点是能检测到不规则形状的字符,可以有效处理字符间的连接。缺点是对于相邻字符容易出现误检测,计算开销较大。
(4)深度学习方法:使用卷积神经网络(CNN)等深度学习算法自动学习字符特征并进行分离。其优点是高准确率,能适应复杂背景和不同字体。自动特征提取,减少人工干预。缺点是需要大量标注数据进行训练,训练和推理的计算要求高。
(5)投影法:通过计算字符的水平和垂直投影来确定字符区域。优点是实现简单,适用于规则排列的文本,对于分隔字符的准确定位较好。缺点是对字符排列的规则性要求高,处理复杂布局时效果差。对间距变化敏感,可能导致字符丢失。
还有模板匹配(与预定义的字符模板进行匹配,根据相似度进行字符分割)等,得益于深度学习和卷积神经网络(CNN)的发展,从需要字符切割到逐渐减少或不再依赖字符切割的演变。从通过图像处理技术(如形态学处理、边缘检测)改善字符切割效果。逐步过渡到区域检测算法,即使用目标检测或分割算法(如YOLO、Faster R-CNN、SegNet等)来定位文本区域,以便在整行或整页中直接提取信息。
总之,随着技术的发展,OCR已经逐渐从过去依赖字符切割演变为更为先进和灵活的整体处理方法,但是因为彝文信息技术研究量的限制了直接使用深度学习方面的发展,因此要做OCR还是得从最初的字符切割开始。
4.字符切割的实践
因为彝文文字在书写结构、独体中笔画分散,再有次高调的增加等。因此直接使用投影法,因为没有现成的标注训练用数据,也无法使用卷积完成。除需要考虑文字间的行、字距问题以外,文字的结构会直接影响切割结果。问题如下:
结构:ꀮ ꃘ ꀨ ꈯ ꋧ ꏿ ꄨ ꄬ ꁈ ꐈ ꐆ
次高调:ꀁ ꀉ ꀌ ꀓ ꃸ ꀭ ꈮ ꐅ ꑒ ꐝ
独体字中笔画分界明显:ꏿ ꇜ ꇎ ꎖ ꍨ ꑛ ꑻ ꑃ ꐜ
因此采用边缘检测法是比较合适的,在实验中有的切割是基于印刷的理想状态操作,现实中的文本切割复杂太多。然直接使用边缘检测也会出现上面3个问题的干扰。如图:
所以需要预处理的引入,包括灰度化、二值化、去噪声和倾斜校正等操作。灰度化是将彩色图像转换为灰度图像,简化图像复杂度;二值化是将灰度图像进一步转换为二值图像,即文字部分变为黑色,背景变为白色;去噪声是去除图像中的杂乱信息,提高文字清晰度;倾斜校正是调整图像方向,确保文字水平排列。
除了前面的操作以外,需要对图像进行形态学操作。这里选取了形态学中的膨胀,以达到把次高调、独体字中笔画分界明显的文字进行更好融为整体。
经过膨胀操作,可以明显的看到,笔画粘连在一起成为一个整理,再进行切割。看出经过形态学操作后的效果比较明显,但还是有一些干扰存在。
5.彝文字符切割存在的问题
从上面切割结果来看,不难发现每一种文字都有自己的特点,如英文是用空隔以区别单词,汉字则是典型的亚洲方块文字,主要以字间距有关。彝文类似汉字,但其书写的结构,声调符号(彝文中平调有次高调)、字体属性(间距、行距、字号)的标准字符自身的书写复杂度高。
字符重叠与粘连:在某些情况下,字符可能存在重叠或粘连,使得切割过程变得复杂。
变化的字体和尺寸:不同的字体、大小和样式可能导致字符切割的精度降低。字符之间的间距变化可能影响切割算法,需要设计能适应不同间距的切割方法。
复杂的布局:对于多行文本、复杂的布局或存在图形的文本,字符切割变得困难。
6.未来发展方向
目前来说,得益于深度学习和卷积神经网络(CNN)的发展,从需要字符切割到逐渐减少或不再依赖字符切割的演变。但是彝文OCR(光学字符识别)技术 目前在一阶段内依然需要依赖于前期的字符切割,以作为后续自动化处理提供研究条件。
未来的方向未来的OCR系统可能会继续朝着更加智能和自适应的方向发展,逐步减少对预处理(如字符切割)的依赖,更多地依靠无监督学习和迁移学习等技术。在复杂的场景中,还可能结合上下文和语义信息来提高识别的准确性和效率。
参考文献:
王伟, 张强. (2018). 基于Canny边缘检测算法的改进. 计算机应用研究, 35(6), 123-128.
张晓东. (2020). 图像边缘检测方法研究. 计算机工程与应用, 56(12), 67-73.
Canny, J. F. (1986). A Computational Approach to Edge Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence, 8(6), 679–698.
OpenCV Team. (n.d.). OpenCV Official Documentation. Retrieved from https://docs.opencv.org/
李小平, 王丽. (2017). 基于OpenCV的图像处理技术研究. 计算机科学, 44(7), 89-95.
基金项目:四川省哲学社会科学重点研究基地彝族文化研究中心资助项目,项目编号:YZWH2328
作者简介:阿别木呷,1992,02,男,彝族,四川喜德,硕士研究生,彝文信息处理。