复杂表格自动理解方法与系统

来源 :中国科学院自动化研究所 | 被引量 : 0次 | 上传用户：zgqzgx123

【摘要】

：

表格文件广泛应用于人们的日常工作和生活中，方便人们简明规范地展示、组织和收集信息。为获得表格中的信息，传统的处理方法是依靠人工处理将表格中记载的信息录入数据库中，不仅

【作者】

：

朱远平

【机构】

：

中国科学院自动化研究所

【出处】

：

中国科学院自动化研究所

【发表日期】

：

2006年期

【关键词】

：

文档图像表格理解表格识别图像二值化边缘信息

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

表格文件广泛应用于人们的日常工作和生活中，方便人们简明规范地展示、组织和收集信息。为获得表格中的信息，传统的处理方法是依靠人工处理将表格中记载的信息录入数据库中，不仅费时费力，而且容易出错，给表格文件中信息的利用带来障碍。表格文档的处理针对这一现实问题，采用自动处理的方式，对表格文档进行分析、理解、识别，替代人工操作。一方面，为表格文档的利用提供了方便；另一方面，在一些有大量表格处理需求的领域能显著提高工作效率，有着现实的应用价值与需求，成为文档处理研究中的热点。然而，复杂表格的理解是一个难题，尽管众多的方法与系统不断被提出，仍存在许多难点并没有得到很好的解决，颇具研究价值和前景，这也是其一直被众多科研工作者视为研究热点的吸引力所在。　　本文研究了表格理解中的多个关键问题，主要工作在于：　　 1.提出了基于多层次结构与内容模板的表格知识的表示与获取方法。基于表格文档的多层次模型，针对表格结构和元素种类复杂的情况，该表格知识表示方法能够比较充分、有效地描述表格文档包含的结构和内容信息。在此基础上，运用表格理解方法获取表格知识，具有较好的灵活性和鲁棒性。　　 2.提出了一种基于统计的表格学习方法。面向特定类型表格，利用统计特性，表格学习方法能够消除表格知识获取中随机噪声的影响，降低对学习样本的质量依赖，提高表格学习的可靠性和精度。同时，基于空表和实表学习相结合的方法，使表格学习方法不仅能够获取表格固定内容的信息，也可获得表格填写内容相关的信息，有助于提高表格处理信息的能力。　　 3.提出了一种基于综合结构信息的表格识别方法。该方法将表格内容域结构信息引入到表格识别中，综合表格框线结构信息和内容域结构信息，有效提高表格识别的性能。　　 4.提出了一种基于边缘信息的自适应表格框线检测新方法。基于矢量化直线检测方法，从图像边缘信息中检测和提取表格框线信息，该方法具有抗倾斜能力强、精度高的特点。同时，提出了一种自适应表格参数估计的方法获取表格局部参数，用于调整表格框线检测参数设置，能有效降低表格框线检测的错检和漏检，提高表格框线检测的性能。　　 5.提出了一种基于笔划增强的文档图像二值化方法。利用笔划邻域的特性和信息，增强文字笔划，在此基础上分割文档图像，提高对低质量图像的二值化性能。　　概括来讲，本文的主要贡献和创新之处在于：提出了结合内容的表格知识表示方法和对应的表格知识获取方法，有助于提高表格知识表示和利用的完备性和灵活性；在表格学习中提出了基于统计的空表与实表相结合的学习方法；提出了基于综合结构信息的表格识别方法，在表格识别中引入表格内容域结构信息，提高了表格识别的性能；提出了一种新的基于边缘信息的自适应表格框线检测方法，具有较好的框线检测性能；提出了一种基于笔划增强的文档图像二值化方法，提高了对降质图像的二值化效果。

其他文献

基于开放式数控及柔性PLC的系统的研究与开发

本文对基于开放式数控及柔性PLC系统的开发进行了研究。文章根据开放体式CNC系统的开放特性需求，研究了数控系统硬件结构开放化设计原则，通过对CNC系统硬件模块划分的深入分析，

学位

程控机床柔性控制数控系统

乙炔加氢反应器的动态模型及其控制研究

本论文主要的研究内容是探讨乙炔加氢反应器的非线性模型建立，通过对反应器在不同的工作点进行动态仿真，考察所建立非线性模型的特性，及在此模型上的非线性控制问题。首先，从反应

学位

乙炔反应器非线性模型非线性PID动态仿真

基于虚拟仪器技术的浅层地震数据采集系统的研究

近年来，随着我国能源、交通以及旧城改造与扩建的巨资投入，各类工程勘察项目日益增多，促使工程物探成为当今地质行业中的热门。其中浅层地震勘探，由于其解决问题的直观性和有效性

学位

地震仪虚拟仪器数据采集地震勘探

基于遗传算法的工业机器人最优运动规划研究

本文对多关节工业机器人的最优运动规划方法进行了研究。针对焊接机器人的工作特点，在假设工作空间无障碍的情况下，提出了把工业机器人以时间最短为优化目标的最优运动规划分解

学位

多关节工业机器人运动规划轨迹规划遗传算法基因植入法

装备保障资源和维修策略优化及效能评估

本文提出了以舰船任务可用性评估舰船维修保障系统效能的方法，并针对保障资源优化、维修策略优化对装备保障体系效能的影响进行了比较全面地分析和研究。文章详细介绍了装

学位

维修策略舰船维修装备保障体系维修保障系统效能评估备件供应

流程工业复杂输送系统的建模、控制与优化

输送系统是流程工业中一个重要的工艺环节，但是由于结构较为简单，对输送控制系统的研究经常被忽视。在大规模输送控制系统中，设备数目多，功能需求复杂，传统的控制方案不仅无法实现

学位

输送控制系统顺序控制面向对象多路径优化最短路径

潜水器浮力调节机构PMSM驱动控制系统设计

随着人类对海洋领域探索的不断发掘和深入研究,各国对水下无人航行器的技术研究需求也越来越迫切。水下无人航行器要实现水下浮力体积控制必须通过浮力调节装置。浮力调节装

学位

浮力调节装置PMSM最大转矩电流比控制弱磁控制矢量控制技术SVPWM

基于中层语义特征表达的物体检测方法研究

物体检测是计算机视觉的一个核心研究问题,在机器人的视觉环境感知、人脸识别、行人检测、智能视频分析、图像检索等领域有着广泛的应用。由于图像采集过程存在光照条件变化

学位

中层特征语义概念物体检测卷积神经网络视觉注意

某型地空导弹武器检测系统的研究

采用先进的测试仪器和测试方法是对现代复杂武器系统进行检测的必然要求，现在计算机测控技术发展十分迅速，军用测试技术尤为突出。本文所述的我军以前装备的对某型地空导弹系统

学位

导弹检测系统PXI虚拟仪器系统黑盒测试技术白盒测试技术

非线性自适应逆控制方法研究

自适应逆控制是用自适应滤波器辨识出被控对象的逆模型，并将其串联到对象的输入端作为控制器来控制对象的动态特性。这种开环控制避免了因为不恰当的反馈引起的系统不稳定现象

学位

自适应逆控制非线性对象径向基函数网络模糊神经网络支持向量机桥式吊车

复杂表格自动理解方法与系统

与本文相关的学术论文