论文部分内容阅读
数学表达式是大多数科技工程文献的重要组成部分。随着网络技术和计算机技术的迅速发展,计算机已渗透到社会生活的各个领域,人类社会进入了一个信息化的时代,通过网络传播和交换信息已经成为一种重要的手段。实现科技工程文献的数字化对人们的学习和研究有着重要的意义,只有将现有的文献转换成相应的电子文档,我们已经拥有的大量信息才能够使用计算机处理并使之能够在互联网上传播。数学表达式的识别已经成为科技工程文献数字化过程中的难点和关键。本文针对科技文献中存在的大量数学表达式,首先介绍数学表达式识别的发展历程,分析它的结构特点,然后详细讨论了数学表达式的识别过程,将这个识别问题分为三个过程:表达式定位和符号分割、符号识别和结构分析。在数学表达式定位过程中,通过计算文本行内各符号的纵坐标的平均值和标准差来判断本行是否为独立的数学表达式,通过对一些特殊数学符号的识别来判断是否存在嵌入式数学表达式;符号分割采用的是递归的垂直水平轮廓投影分割方法做第一步处理,用种子填充法对其缺点进行补充,轮廓投影分割法的优点在于用它分割出来的符号具有结构信息;支持向量机作为统计学习理论的重要应用,我们使用它来进行符号识别,这是支持向量机方法的一种新应用,但它还是取得了比较好效果;在结构分析阶段中,树转换的方法被使用来分析数学表达式的结构,引入基线结构树的概念,将数学表达式中的操作符和操作数分到基线结构树的各个节点上,使用树结构能简单清晰的反映表达式的结构。本文在对数学表达式识别各阶段所使用的各种方法进行总结分析的同时,对使用到的方法编程实现,并给出了实验结果。最后,我们讨论了在数学表达式识别中所面临的问题以及其今后的发展趋势。