基于搜索引擎的双语混合网页识别新方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：easyk8

【摘要】

：

该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类

【作者】

：

冯艳卉洪宇颜振祥姚建民朱巧明

【机构】

：

苏州大学计算机科学与技术学院

【出处】

：

中文信息学报

【发表日期】

：

2011年1期

【关键词】

：

WEB挖掘双语混合网页平行语料 web mining bilingual web pages parallel corpora

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。

其他文献

直扩系统中抗窄带干扰技术

直扩序列扩频通信具有隐蔽性,抗干扰能力强的特点.但对各种人为的大功率窄带干扰却无能为力.采用窄带干扰抑制技术,是抗各种人为干扰的一种有效手段.本文介绍各种干扰的抑制

期刊

直扩系统扩频通信窄带干扰抑制技术线性预测滤波器变换域DSSSnarrow-band interference Self Adaptive tech

电磁兼容性（EMC）设计需要考虑的问题

阐述了电磁兼容(EMC)设计的原则,指出了产品EMC现象的若干主要原因,提出了相应的方法和措施

期刊

电磁兼容性设计规则噪音源屏蔽印刷电路板电源EMC Design Rules Noise Sources

如何按ISO9000—2000标准审核组织的QMS

本文介绍按新标准审核组织的QMS

期刊