基于特征码的网页去重算法研究

来源 :山东广播电视大学学报 | 被引量 : 0次 | 上传用户:bn1984
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文探讨了数据挖掘和搜索引擎的理论框架,以去除内容重复的冗余网页为研究目标,分析了搜索引擎工作原理,讨论了现有的去重算法。给出了一种基于特征码的网页去重算法,并采用二叉排序树实现了算法。实验证明算法有着较高的去重准确率、召回率,达到了对算法的预期。
其他文献
目的 通过观察三羟异黄酮对前列腺增生小鼠动物模型血清生化指标的影响,探讨三羟异黄酮对前列腺增生动物模型的安全性.方法 应用丙酸睾丸酮肌肉注射制造小鼠前列腺增生模型,
冬季利用保护地设施进行蔬菜栽培,是人为创造适宜蔬菜生长的环境条件,满足蔬菜生产的要求来进行反季节生产,因此如果能够了解和掌握光照、温度、湿度、二氧化碳这四种影响日光温
胫骨开放性骨折伴软组织缺损,处理不当将严重影响小腿及踝关节功能,随着显微外科技术的深入发展,应用显微外科技术进行修复可取得良好的效果。笔者收治12例患者采用外固定架与吻
1 病害症状 全株枯萎,茎基缠绕白色菌索或菜籽状茶褐色小核菌,患部变褐腐烂.土表可见大量白色菌索和茶褐色菌核.