基于标签路径的Web结构化数据自动抽取

来源 :计算机科学 | 被引量 : 0次 | 上传用户：lenvy11

【摘要】

：

提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合，并依据路径相似度测量方法来聚类标签路径，实现目标数据区域的定位，然

【作者】

：

李贵陈成李征宇韩子扬孙平孙焕良

【机构】

：

沈阳建筑大学信息与控制工程系

【出处】

：

计算机科学

【发表日期】

：

2013年06A期

【关键词】

：

标签路径结构化数据抽取聚类

【基金项目】

：

国家自然科学基金(61070024)资助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

提出了一种基于标签路径的Web结构化数据自动抽取方法。该方法通过对网页DOM树的解析获取完整标签路径集合，并依据路径相似度测量方法来聚类标签路径，实现目标数据区域的定位，然后通过标签节点坐标位置的特性来分离各个数据项，过滤冗余数据，最终完成数据抽取。实验结果表明，与MDR方法相比，该方法在处理拥有结构化数据的网页时，有更高的查全率和查准率。

其他文献

棕油现货需求增长

海外市场价格坚挺的趋势也影响原棕油的期货价格。在印度多种商品交易所中，10月原棕油价格上涨至49．25卢比／kg，增长率为0．48％，贸易量为10批。11月合同价上涨至49．06卢比／kg，上涨了0．39％，贸

期刊

需求增长现货市场价格贸易量价格上涨合同价交易所增长率

中、美、印股市溢出效应和联合跳跃效应研究

ue＊M＃’＃dkB4＃＃8＃”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:（100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技

学位

股市联动性波动溢出收益溢出联合跳跃

基于标签路径的Web结构化数据自动抽取

其他学术论文