基于主题的网页去重

来源 :电脑开发与应用 | 被引量 : 0次 | 上传用户:gianfranco1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎返回的重复网页不但浪费了存储资源,而且加重了用户浏览的负担。针对网页重复的特征,提出了一种基于主题的去重方法。该方法通过组块的思想提取出网页正文的主题,然后进行主题的相似度计算,把重复的网页去除。实验证明,该方法对全文重复和部分重复的网页都能进行准确的检测。
其他文献
计费数据采集与传输为计费系统采集必要的计费数据,并把数据准确地传送到目的地。要求计费数据采集与传输能够融合多个网络,支持多种类的交换机,兼容尽可能多的操作系统以用来满
1994年,黄山书社出版了耿云志编《胡适遗稿及秘藏书信》手稿本,共计42巨册,披露了许多鲜为人知的与胡适有关的材料。其中第33册收录了梅光迪致胡适45通信,并附梅光迪《序与胡适交
网格技术作为一种新技术的出现,将消除信息孤岛,实现资源的全面共享与协同工作。介绍了网格技术,分析了网格技术在电子商务领域的特点以及应用优势,最后阐述了网格技术在电子商务
计算机应用在我国有了很大的发展,计算机专业的教育也得到了发展。但现状是大部分计算机专业毕业生缺乏实际应用能力,不能很好地将计算机科学与技术专业的知识应用到生产生活中
PID控制是迄今为止在过程控制中应用最为广泛的控制方法,但在实际应用中,其参数整定仍未得到较好的解决。把神经网络技术应用在PID控制中,充分利用神经网络具有非线性函数逼近能