基于DOM树和视觉特征的网页信息自动抽取

来源 :计算机工程 | 被引量 : 0次 | 上传用户:luffyzero88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对生活信息服务网站的列表式商户信息,提出一种基于文档对象模型(DOM)树和视觉特征的网页信息自动抽取方法。利用商户信息列表页面中数据区域的DOM树结构和视觉特征,搜索得到候选目标数据区域,再利用视觉特征识别真正目标数据区域,从而抽取其中的数据记录。对10个生活信息服务网站进行测试,结果表明,有8个网站的召回率和准确率达到100%,取得了较好的结果。
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
跨河桥梁的建设,会占用河道有限的行洪面积,从而对河道行洪产生不利的影响,其中产生的水位壅高是许多水利学者关注的焦点。以淄博市高新区猪龙河上8座桥梁为研究对象,运用HEC
“ONE·一个”在阅读类手机App中无疑是个中翘楚,其发展之迅速、读者之广泛、影响力之巨大无一不证明了手机App是传统出版社在移动互联网时代成功转型的可行之路。因此,研究