【摘 要】
:
该论文主要研究Web搜索引擎的信息采集技术,重点为WWW搜寻算法.在对现有主要算法如广度优先算法、Backlink算法和PageRank算法进行分析比较的基础上,认为这几个算法没有考虑
论文部分内容阅读
该论文主要研究Web搜索引擎的信息采集技术,重点为WWW搜寻算法.在对现有主要算法如广度优先算法、Backlink算法和PageRank算法进行分析比较的基础上,认为这几个算法没有考虑页面内容因素,比较适合于通用搜索引擎,而对于专题性搜索引擎来说,集中式搜寻算法更为有效.HITS算法、Context Graph算法是集中式搜寻算法的典型代表,但它们都存在着计算量大的缺点.Context Graph算法还需要巨大的训练页面集来产生上下文关系图,使得它们的实用性都大大降低.针对现有WEB搜寻算法的不足,该文认为采取页面内容分析和超链分析相结合的方法可以提高信息采集效率,提出了一个新的集中搜寻算法-均值-传递算法,用相关度来表示页面与专题的相关程度,用链接权重来表示链接环境对页面相关度的影响,采用均值-传递模型来预测页面相关度.在文章中,还针对集中式搜寻中的隧道效应等问题进行了探讨,提出了集中度自适应方法等辅助搜寻策略来进一步提高搜寻效率.通过对不同算法的分析和试验比较,在采集与某一专题相关的页面时,集中式搜寻算法比一般搜寻算法的相关页面采集效率要高的多,说明对专题型搜索引擎来说,集中式搜寻算法是一个非常好的选择.
其他文献
目前我们使用的IP电话,实际正是这种窄带和宽带网混存的假IP电话,之所以说它是"假IP电话"是因为它的网络通讯过程还没有完全脱离传统的电话网,IP电话是IP网与公用电话网相结
随着视频数字化技术的广泛应用,视频服务系统中的存储"瓶颈"也日益突出.因此,如何实现高性能的视频存储系统成为人们研究的热点.目前,提高存储系统性能主要有两个切入点:提高
互联网络自从诞生以来,已经成为人们日常生活中不可或缺的一部分,人们可以通过网络查询信息,获取资讯,甚至寻求帮助。但互联网络的开放性和信息多样化正使得网络安全问题显得
科学计算可视化技术的核心是三维空间数据场的可视化,散乱体数据是一种重要的三维数据类型.为大尺寸散乱体数据可视化开发高效、精确和易于实现的算法一直是科学计算可视化领
随着数据库应用的不断深化,数据库的规模急剧膨胀,但是数据库管理系统却没有提供有效的工具和方法来利用这些数据,因此充分利用数据进行决策支持成为当今最需要深入研究的领域。
应用软件在开发完成投入运行后,就进入到软件的维护阶段。由于软件维护阶段存在各种变化的因素,导致应用系统性能逐渐不能满足用户要求。因此,软件维护阶段性能优化在整个软件生
随着软件工程的发展,基于模型的软件开发方式越来越受到重视,成为软件工程领域的发展趋势。由于模型具有方便、易懂、易维护并且对设计需求反应灵敏的特点,基于模型技术可以提高
如何应用当前的最新技术(如分布式对象技术、多代理技术、XML技术等),使得全局模式多数据库系统能完全透明地访问各成员数据库系统中的数据,以实现不同数据源之间的互操作,正
目前企业的分布信息系统虽然在软件结构和系统实现技术方面具有一定的灵活性,但是,系统各部分固有的紧耦合关系及其业务逻辑的"硬编码"等制约了系统的敏捷性.针对分布信息系
同以往的会议系统相比较,计算机网络多媒体会议系统使与会者更具有身临其境的感觉,它既能免除人们远赴会场所带来的旅途劳累,减少时间开销、降低会议成本,使信息的传递和交流更加