中文印刷体文档中的数学公式识别

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:zphym
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来随着Internet的普及以及互联网用户的不断增多,人们更趋向于利用这个传播渠道去发布和交换信息。数字图书馆和远程学习随着互联网的发展而成为研究的热点,实现上述思想需要一种新的有效方法把已存的书面文档转换成相应的电子文档以便于用计算机处理并在网上传播。广大科技工作者所阅读的科技文献中含有大量的数学公式,由于数学公式的复杂性,现有的OCR系统不能完全正确识别科技文献中的数学公式。为了方便读者和提高文献的利用率开发能够识别数学公式字符的OCR系统具有很大现实意义。 本课题研究的是印刷体中文文档中的数学公式识别问题。数学公式识别可分为数学公式字符的分割定位与识别两部分。由于字符识别技术已经很成熟了,我们只要把文档中数学公式字符的位置确定下来,结合现有的技术就能解决数学公式识别问题。 数学公式字符的定位采用的是一种统计学方法。首先把扫描进计算机的图片文档保存为二值化bmp文件,接着对文档进行行提取,然后计算这一行文本字符宽度的2阶中心矩。利用纯文本行和含有数学公式文本行之间矩值的差异就可以判断这行文本含有数学公式。当文本内容相同时,由于采用字体的大小不同会对矩值产生影响,本文引入参数对矩值进行修正,并建立一个统一标准以消除这个影响。 当判断出一行文本内含有数学公式时,利用印刷体汉字字体的大小、长宽比、高度和宽度等这些基本特征与数学公式字符相应特
其他文献
现场总线技术是计算机技术、通信技术和控制技术发展的产物,它通过标准化的数字通信链路将现场智能化装置与远程监控计算机连接起来,实现了数据传输与信息共享,形成全新的控
本文着重研究了一种基于PIC18系列微控制器的嵌入式实时操作系统(Embedded RTOS)的设计和实现方法。该系统以Microchip公司生产的高性能的PIC18系列微控制器为硬件实现平台。
航道的正确标识——航标是船舶航运安全的重要保障。随着水路航运系统的不断发展,构建一个能对航道航标进行远程监控和管理的智能航标监控系统对于提高助航的准确性、安全性和
现场总线在目前的工控领域得到越来越广泛的应用,PROFIBUS更是在我国得到了长足的发展,越来越多的厂商采用PROFIBUS总线技术作为工厂的底层工业控制系统。为使我们能够完全的掌
近几年来,足球机器人系统已成为人工智能和智能控制领域的热点研究课题之一。随着研究的深入,人们越来越认识到足球机器人小车控制器在整个机器人中的重要作用。本文以MiroSo
本论文设计了一种基于PC总线的实验锅炉控制系统,该控制系统在实验教学中起着十分重要的作用。本文首先对高校实验控制系统的现状及其发展状况进行了说明,提出了实验锅炉控制系
优化控制作为系统控制理论及系统工程的重要组成部分,受到越来越多控制及系统工程科学家的关注。优化控制理论是提高系统鲁棒性的有效途径之一。近二十年来,该控制理论取得了蓬
随着集成电路的飞速发展,对半导体器件的计算机模拟变得越来越重要。传统的计算机模拟主要是采用数值算法。 本文提出了一种半导体器件模拟的新方法,这种新方法将Adomian
随着大规模集成电路技术、超大规模集成电路技术的发展,特别是微处理器的出现和广泛应用,包装机械的控制技术有了突飞猛进的发展。控制技术的发展成为推动包装机械功能提高的
句法分析是自然语言处理中的关键性问题之一,其主要任务就是自动识别句子的句法结构,即句子包含的句法单位以及这些句法单位相互之间的关系。句法分析问题的解决对于机器翻译、