论文部分内容阅读
表格文件广泛应用于人们的日常工作和生活中,方便人们简明规范地展示、组织和收集信息。为获得表格中的信息,传统的处理方法是依靠人工处理将表格中记载的信息录入数据库中,不仅费时费力,而且容易出错,给表格文件中信息的利用带来障碍。表格文档的处理针对这一现实问题,采用自动处理的方式,对表格文档进行分析、理解、识别,替代人工操作。一方面,为表格文档的利用提供了方便;另一方面,在一些有大量表格处理需求的领域能显著提高工作效率,有着现实的应用价值与需求,成为文档处理研究中的热点。然而,复杂表格的理解是一个难题,尽管众多的方法与系统不断被提出,仍存在许多难点并没有得到很好的解决,颇具研究价值和前景,这也是其一直被众多科研工作者视为研究热点的吸引力所在。
本文研究了表格理解中的多个关键问题,主要工作在于:
1.提出了基于多层次结构与内容模板的表格知识的表示与获取方法。基于表格文档的多层次模型,针对表格结构和元素种类复杂的情况,该表格知识表示方法能够比较充分、有效地描述表格文档包含的结构和内容信息。在此基础上,运用表格理解方法获取表格知识,具有较好的灵活性和鲁棒性。
2.提出了一种基于统计的表格学习方法。面向特定类型表格,利用统计特性,表格学习方法能够消除表格知识获取中随机噪声的影响,降低对学习样本的质量依赖,提高表格学习的可靠性和精度。同时,基于空表和实表学习相结合的方法,使表格学习方法不仅能够获取表格固定内容的信息,也可获得表格填写内容相关的信息,有助于提高表格处理信息的能力。
3.提出了一种基于综合结构信息的表格识别方法。该方法将表格内容域结构信息引入到表格识别中,综合表格框线结构信息和内容域结构信息,有效提高表格识别的性能。
4.提出了一种基于边缘信息的自适应表格框线检测新方法。基于矢量化直线检测方法,从图像边缘信息中检测和提取表格框线信息,该方法具有抗倾斜能力强、精度高的特点。同时,提出了一种自适应表格参数估计的方法获取表格局部参数,用于调整表格框线检测参数设置,能有效降低表格框线检测的错检和漏检,提高表格框线检测的性能。
5.提出了一种基于笔划增强的文档图像二值化方法。利用笔划邻域的特性和信息,增强文字笔划,在此基础上分割文档图像,提高对低质量图像的二值化性能。
概括来讲,本文的主要贡献和创新之处在于:提出了结合内容的表格知识表示方法和对应的表格知识获取方法,有助于提高表格知识表示和利用的完备性和灵活性;在表格学习中提出了基于统计的空表与实表相结合的学习方法;提出了基于综合结构信息的表格识别方法,在表格识别中引入表格内容域结构信息,提高了表格识别的性能;提出了一种新的基于边缘信息的自适应表格框线检测方法,具有较好的框线检测性能;提出了一种基于笔划增强的文档图像二值化方法,提高了对降质图像的二值化效果。