基于搜索引擎的双语混合网页识别新方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:easyk8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文提出了一种从搜索引擎返回的结果网页中获取双语网页的新方法,该方法分为两个任务。第一个任务是自动地检测并收集搜索引擎返回的结果网页中的数据记录。该步骤通过聚类的方法识别出有用的记录摘要并且为下一个任务即高质量双语混合网页的验证及其获取提供有效特征。该文中把双语混合网页的验证看作是有效的分类问题,该方法不依赖于特定领域和搜索引擎。基于从搜索引擎收集并经过人工标注的2 516条检索结果记录,该文提出的方法取得了81.3%的精确率和94.93%的召回率。
其他文献
直扩序列扩频通信具有隐蔽性,抗干扰能力强的特点.但对各种人为的大功率窄带干扰却无能为力.采用 窄带干扰抑制技术,是抗各种人为干扰的一种有效手段.本文介绍各种干扰的抑制
阐述了电磁兼容(EMC)设计的原则,指出了产品EMC现象的若干主要原因,提出了相应的方法和措施
本文介绍按新标准审核组织的QMS
本文介绍了MC34151/MC33151/MC34152/MC33152系列双路单片高速MOSFET驱动器,文中不但讨论了该系列MOSFET驱器的引脚排列、各引脚的名称、功能、用法、主要设计特点和参数限制,而且
本文对电气器具谐波电流产生的机理,限值和测量方法,抑制方法进行分析,探讨.