基于单义域邻接图的工程图纸扫描图象的字符提取
摘要 工程图纸扫描图象的图文分割是一个重要问题。本文在构建单义域邻接图基础上来提取字符及其特征。图文分离先从单义域中筛选字符笔划域,进行初步分离。然后,以字符笔划域为起点,遍历邻接图来搜索邻接字符笔划域,提取字符域,分析特性作进一步筛选。以字符域邻近与共线为判据来组合字符串域,字符域邻近是用其外接膨胀矩形相交来判定。利用共串字符域外接矩形中心及所附图形对字符域进行定向。对非水平字符域旋转至水平,并构建其单义域邻接图,以表达几何与拓扑特征,为后续识别作准备。实例表明,本算法可以较好地处理字符与图形的粘连问题,提取效果很好,且能够描述字符整体特征。
1 引言
工程图纸扫描图象的识别与理解是目前学术界和工程界研究的热点,在机械、、建筑及地理信息系统等应用领域中具有重要的实际意义。图样中有两部分信息,一是图形,由几何图素组成,用来表达产品形体;二是文字,用来定义产品尺寸及描述其它信息,有的附于图形,如尺寸数字等,也有独立存在的,如技术要求等。文字是图样中非常重要的信息。因此,工程图纸扫描图象的字符提取与识别是一个重要问题,对进一步的尺寸理解、图像理解等高层次理解都有较大作用。工程图样中的文字包括多种字符,如汉字、数字、字母及符号等。字符情况较为复杂,有自己的一些特点:字符多为手写,具有一定的随意性,不同于印刷体;具有多种方向,不仅有水平书写,而且有的垂直放置,还有其它各种角度的斜向;有直体与斜体;有时字符与字符及图形粘连,增加了图文分割及字符提取的难度;位置分散,大小不一。上述情况在字符的分割及识别时都必须考虑。所以,工程图样字符提取及识别是一个十分困难的问题。
鉴于工程图样字符的特点,其处理方法与光栅文档具有很大差别,一般的处理过程是:先标识连通体,从中选出字符域,再根据字符域邻近和共线来生成字符串域,并判断方向,然后分割字符域,最后进行字符识别及校正。经过多年研究,工程图样字符的分割及识别算法已有多种:一是基于连通体[1];二是基于轮廓跟踪[2],利用同步边缘特性检测进行轮廓跟踪,分离字符轮廓,采用邻域搜索来生成字符串,最后通过分类树进行字符识别,并根据专业知识作校正;三是行程编码匹配法[3],采用图分割集方法来分割与字符及图形粘连的字符。
本文提出一种基于单义域邻接图的图文分割方法,在二值图象水平黑游程编码基础上,以相关游程线宽和拓扑的一致为约束生成条形域,对其中多义域作分裂获得单义域:线段域和圆弧域,并建立其邻接图。字符笔划可以表示为一个或多个单义域。字符笔划的长度较小,线宽一致。根据这些特点,从单义域中筛选字符笔划域,进行初步图文分离。字符笔划多是邻接的,以字符笔划域为起点,通过遍历邻接图搜索邻接的字符笔划域,来提取字符域。字符结构与图元差别较大,根据字符域特性实现字符进一步筛选。采用字符域外接矩形来标识字符的大小和位置。根据字符域外接矩形相交来判定字符邻近,再加上字符共线为判据来生成字符串域。图样中字符串多是附于图形的,单义域可以很容易获取方向,即可得图形方向。利用共串字符外接矩形中心及所附图形对字符进行定向。然后将非水平字符域旋转至水平,并重新进行水平黑游程编码,以单义域邻接图来表达字符的结构特征,为后续识别作准备。下面进行详细介绍。
2 图象的单义域邻接图描述
在工程图形中,既有图元又有字符。图元有多种,如线段、圆弧、圆、箭头等,而且图元多为相交。不同图元需要用一种结构来统一描述,然后通过分析其几何与拓扑特征确定类型来进行矢量化。交点信息对提取同一图元及不同图元之间拓扑关系具有重要指导意义。字符是由笔划组成的,在提取笔划的基础上进行识别是一种很好的方法。但笔划的提取难度较大。现有对图样字符的识别多是处理数字和字母,较少涉及汉字,而我国图纸均有大量汉字信息,还有数字及字母等。因此,需要建立一种模型,既能表达几何数据,还可以描述拓扑关系,便于各种特征提取。
现有图文分离算法多是以象素为单元,进行连通体生成。而连通体对后续识别贡献较小,尤其是对图元的识别。这就要求采用一种模型能够统一描述图形和文字的几何与拓扑信息。基于单义域邻接图的描述模型,可以统一描述图元和文字,不但能提取图元,还为字符识别的笔划特征提取提供启发。下面给出单义域邻接图的建立方法。
对图象作水平黑游程编码,这时对图象的分析单元由象素变为游程,游程连通性反映了图形拓扑关系。如图1.b所示。通过分析游程的拓扑关系,可以获取具有转折意义的游程[4]。这些关键游程为图元分割提供线索。相关游程基于宽度和拓扑一致性可以聚合为一个集合,来表达某一几何与拓扑意义,称之为条形域。条形域具有较强的整体性和宏观性[5]。但是,有的条形域具有多义性,即由线段域和圆弧域组成,对多义域需作分裂得单义域。这时,图象的表达单元变为单义域,如图1.c所示。而单义域首末游程的拓扑则表达了单义域的拓扑关系。单义域邻接图可以完整地表达图象中图元与字符的几何与拓扑信息。如图2所示。
3 字符提取
图文分离算法已有多种,主要是基于连通域。多数字符是一个连通域,数字、字母及汉字多是连通的,或是由几个连通域构成的,而且字符域具有许多与几何图元域不同的特征。在实际中多以象素八邻域来进行字符提取,且辅以多种字符属性判断,确认是字符域而不是图形域,并生成其最小外接矩形,用以标识字符域的大小与位置。上述算法主要是分析连通域的特征来确定字符,在生成连通体时,对于图文粘连情况,势必形成一体,需要后续分割或造成图文误分。这主要是因为在形成连通体时只是基于象素。如果能够在确定笔划域的基础上进行图文分割及字符提取,则毫无疑问会提高分割及提取效果。
根据制图规则,图样中的汉字、数字、字母的字体均有规定,在一定扫描率下,可以确定字符的范围阈值,从而确定字符笔划的长度,而字符笔划线宽又是基本一致的,根据这两个条件从单义域中选取字符笔划域。邻接的字符笔划域为一个字符,或是一个字符的部分笔划。字符提取是以字符笔划域为基础的,遍历邻接图搜索邻接的字符笔划域来完成。下面给出具体算法:
(1)取出未访问字符笔划域,设为当前域,新建字符域及其外接矩形,将当前域插入字符域。
(2)如果当前域无邻接的可访问域,则转到(4),否则,取当前域邻接的未访问字符笔划域,设为当前域,插入字符域,字符域外接矩形生长。
(3)返回(2)。
(4)得一字符。
字符结构与图元差别较大,根据字符域特性[1]实现字符进一步筛选。图3.a给出图1.a的字符提取结果,采用外接矩形标识。
4 字符串生成
工程图纸中字符多以串的形式存在,组成字符串来表达语义。分析字符的字符串归属能够为字符识别提供方向及上下文等信息。由于图样字符的多向性,字符的方向确定也需从字符串中获取。对于小象素群究竟是小数点还是噪声,只有置身于字符串的上下文中才能作出正确判断。因此,字符串的组合是继字符提取之后的必然要求。
字符串成组通常采用的方法有两种,一种是利用Hough变换进行共线检测[6];另一种是相邻检测,即字符串的生成就是将邻近字符组合在一起。第二种方法有多种作法:一种是以字符外接矩形的中心距为判据的,与某一阈值作比较,若小于阈值则将其归为同一字符串。一般先进行水平、垂直两个方向字符串搜索,再进行斜方向,以字符外接矩形的中心距为判定值,对不同方向采用不同阈值[2]。另一种是以字符外接矩形的角点距为判据的,与某一阈值作比较,若小于阈值则将其归为同一字符串[7]。阈值与方向的关系较大,有时需要同时处理多种情况。
上述方法即使对同一字体由于方向不同(水平、垂直、斜向)需采取不同阈值,对方向较为敏感。本文采用一种矩形求交方法来进行字符邻近判断,可以较好地解决字符邻近判断问题,无需预先设定方向。
4.1字符组合
在图样中,不同大小文字之间的行列间距是不同的,文字列间距与其大小具有一定对应关系。本文根据字符域外接矩形自适应求得字间距,通过膨胀字符外接矩形,即字符外接矩形按字列间距扩大生成膨胀矩形,对膨胀矩形进行求交运算来判定两个字符是否邻近。同一字符串的字符不但是邻近的,而且还应共线(第三个字符起)。下面给出字符组合步骤:
(1)取出未访问字符域i, 设为当前域,新建字符串域,将当前域插入字符串域。
(2)如果当前域无邻近且共线的可访问域,则转到(4),否则,取当前域邻近且共线的未访问字符域,设为当前域,并插入字符串域。
(3)返回(2)。
(4)得一字符串。
图3.b可以看出,矩形求交方法可以较好解决字符组合问题,在字符串的生长中无需预设方向。
4.2字符串定向及旋转
工程图样中字符是多向的,其定向问题直接影响识别精度。字符串的方向为其书写的基线方向。多数方法以字符中心连线来确定方向,但,如果字符较少,则误差较大。在工程图纸中,多数字符串附于图形,尤其是线段,而其基线方向与其所附线段的方向一致,如机械图样中的尺寸数字。由于采用单义域邻接图来描述图象中图形和文字,从单义域中可以很容易获得图形的方向信息。对于附于图形的字符串定向,可以采用比较字符串中心线与所附线段来确定字符串的基线方向。如果字符串邻近的某一单义域(线段域)的方向与字符串中字符域中心连线方向一致,则采用线段域方向作为字符串方向。而独立字符串的定向问题可采用[1]方法。
对于水平字符串,可以直接取出每个字符进行识别。而对其它方向的字符串,需先对每个字符根据其方向旋转至水平然后进行识别。图3.b给出字符串标识。图3.c给出旋转后结果。
5 字符单义域表示
我国图纸多是中西文混合,字符识别的特征提取必须考虑汉字特点,笔划特征明显。字符识别的特征提取方法很多,如果能够提取笔划,则必定会大大提高识别效果[8]。采用单义域邻接图可以较好地提取、表达字符的几何与拓扑信息。图4给出字符单义域表示实例。
6 结束语
本文采用单义域邻接图来表达图象信息,在确定笔划域的基础上进行图文分割及字符提取,整体性很强。本研究算法已被应用于我们开发的工程图纸扫描图象识别与理解系统之中,字符提取效果较好。但仍需进一步完善,研究各种复杂情况,以提高字符及其笔划特征提取精度,尤其是研究各种结构汉字,进行以笔划为基础的中西文识别。
文献
[1] 邹荣金,蔡士杰,张福炎等. 字符粘连及字线相交的分割与识别方法. 软件学报,1999,10(3):241-247
[2] 胡友兰,黄树槐,常明. 工程图中字符分离和标注字符串生成技术. 华中理工大学学报,1997,25(3):30-33
[3] 陈勇,朱林,常明. 工程图中粘连字符的提取与分割. 华中理工大学学报,1996,24(4):23-26
[4] S. Di Zenzo, L. Cinque, and S. Levialdi. Run-Based Algorithms for Binary Image Analysis and Processing. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1996,18(1):83-89
[5] 王金鹤. 基于条形域结构的扫描图样识别理论与方法研究(博士学位). 大连,大连理工大学,1999.6
[6] 江早,刘积仁,刘晋军. 工程图纸图象图文自动分割工具SegChar. 软件学报,1999,10(6):589-594
[7] 李伟青,彭群生. 一种新的字符提取和组合算法. 工程图学学报,1997,No.2-3:38-45
[8] L. Y. Tseng and C. T. Chuang. An efficient Knowledge-Based Stroke Extraction Method for Multi-Font Chinese Characters. Pattern Recognition, 1992, 25(12): 1445-1458
An Algorithm of Extracting Characters from Scanned Image of Engineering Drawings Using Primitive Region Adjacency Graph
Abstract It is a important issue how to separate text from scanned image of engineering drawings. The paper presents an algorithm to extract characters and their features from images using Primitive Region Adjacency Graph. We can easily get character stroke regions from primitive regions. At start of a character stroke region, a character region grows by traversing the graph for adjacent character stroke regions. After analyzing features of character regions, we can get real character regions. A string can be got through combining those near and collinear character regions. If rectangles inflated of two character regions are intersected, they are near. The direction of a string region is attained by the center points of enclosed rectangles of characters shared by the string and figures attached. Then characters not horizontal are rotated to horizontal. A Primitive Region Adjacency Graph can represent geometrical and topological features of a character region, which is helpful to extract features of a character region. Some applications show that the algorithm can deal with adherence of characters to graphics, and is effective and robust.
Key words Primitive Region Adjacency Graph, text-graphics separation, character stroke regions, character extraction, feature extraction