基于融合特征与语法规则的流式文档理解方法

来源 :北京信息科技大学学报:自然科学版 | 被引量 : 0次 | 上传用户:zy3201869
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对流式文档结构理解中构件识别特征分析的不足,提出一种基于融合特征的构件识别方法。首先建立格式向量表示字体等构件格式特征,提取文档构件中关键字等内容特征作为内容向量,分别计算待识别构件两种特征与候选构件的得分并对其加权计算,得出候选的构件标签;结合自顶向下和自底向上的结构识别方法,得到文档的逻辑结构。通过实验验证了该方法能有效提高文档构件识别的准确率,同时提高了文档结构识别的准确率。
其他文献