论文部分内容阅读
在科技高度发展的现代,数学表达式是大多数科技文献的核心。但是,数学公式由于使用特殊符号繁多,排版格式复杂多变,因而在计算机上处理特别困难,这也制约了利用计算机和网络开展数学辅助教学的发展。因此对它的研究可以使数学表达式用于检索,提高文献的科技性;实现公式输入的自动化,以解决手动输入的低效率问题;改变数学表达式图片的存在形式,可以节省空间,提高网络的传输速度等。目前广泛应用的OCR系统对手写、印刷体文本都有很高的识别率,已经广泛应用于办公自动化等领域,克服了人工输入费时费力的缺点。但是它只能识别单个字符,还不能分析公式结构,这样就失去了公式所表达的数学含义。因此,本文提出一种对文档中的数学公式定位提取后利用基于特征字符的印刷体数学公式识别方法的设计思想,并给出了完整算法,将印刷体的数学公式(图像格式)转换成可编辑的电子格式。本文主要分为以下几个部分:首先是预处理。图像在生成的过程中容易引进噪声,为了使图像达到我们的要求,要对它进行二值化、平滑去噪、细化、大小归一化等处理。其次是公式定位。利用统计计算文档正文一行文本字符宽度2阶中心矩的修正值大小来判定这行文本中是否含有数学公式。在判定含有数学公式的文本行中,利用数学公式符号与汉字字符外部形态特征的不同把它们区分开,并定位数学公式。然后是公式字符识别。由于定位的是一个整体的公式,而我们需要知道公式包含的各个字符以及它们之间的位置关系,因此,就要分割公式所包含的字符并且识别它们。本文采用快速算法进行字符的分割,用模板匹配的方法进行字符识别。接下来研究结构分析。本文采用基于特征字符的方法进行结构分析,提出了特征字符和特征子块的概念。对输入的公式,按照特征字符的处理算法进行分割,并对不同的特征字符,采用不同的处理算法,找出各个特征子块。直到子块中无上下标,然后进行识别。最后就是结果输出。在这一部分给出了Word EQ域的使用方法。并把结构分析生成的语法树转换为可编辑的Word EQ格式。