论文部分内容阅读
目前,互联网教育行业发展迅速,人们对于互联网教学过程中出现的数学算式有自动识别和自动批改的需求。对这类基础算式进行自动识别和批改,需要对图片中的算式进行定位、分割、识别,最终转换为文本数据输入到计算机系统当中进行自动批改。但是由于教学阶段的基础算式识别具有一定的特殊性,尤其是小学阶段的通用竖式在定位和分割过程上具有一定复杂性。检测和识别基础竖式具有特殊性和一定难度,不能简单的用识别常规传统文本的方式来实现定位和识别。因此,研究并实现一个手机拍照基础下的基础算式识别系统是十分有意义的。本文对基础算式识别系统中的涉及到的算式定位与识别技术进行了深入的研究,利用深度学习网络模型定位识别基础算式。以此为研究基础,本文设计并实现了一个手机拍照下的基础算式识别批改系统,为互联网线上教学提供了一种可行高效的小学基础算式教学批改方案,帮助师生进行线上学习。本文的主要工作内容如下:(1)本文针对小学阶段基础算式识别和批改的实际应用场景,采集了1500张手机拍照下的包含基础算式的图片作为数据集,这些图片共包含10254个基础算式,算式字体、结构、排版具备多样性。本文对基础算式数据集进行了标注,标注信息包括算式定位框、算式识别内容和计算结果。(2)本文结合当前深度学习理论,根据手机拍照场景下基础算式识别的相关需求,对CTPN文本识别模型进行了针对性的改进,并以此为基础提出了基础算式检测定位模型。该模型对基础算式文本行区域的检测定位性能明显优于其他深度学习网络模型。针对小学阶段的基础竖式,本文通过聚类连接的方法对竖式文本行进行上下文的连接,准确识别出基础竖式的计算过程并进行批改。(3)本文基于基础算式检测识别的研究,应用Java Spring框架和Python语言实现了一个基于基础算式检测定位模型和开源识别引擎Tesseract的手机拍照下基础算式自动识别系统。系统共有五个主要的功能模块图像预处理模块,算式定位模块,竖式连接模块,算式识别模块和结果重组模块。图像预处理模块主要负责图像的噪声去除,大小压缩调整和旋转校正;算式定位模块利用改进过后的CTPN模型对算式文本行进行检测定位,并对存在基础竖式的图像区域进行纵向连以接建立基础竖式识别过程中的上下文对应关系;算式识别模块利用开源识别引擎Tesseract先识别去并除非算式文本框,再对定位到的算式图像进行识别并进行批改判误;最后结果重组模块对识别结果进行重组,并把结果返回给手机移动端,由手机移动端展示给用户。