【摘 要】
:
伴随着互联网的高速发展,网络信息呈指数级增长。在如此海量的信息当中需要搜索引擎定位所需的信息。虽然通用搜索引擎在一定程度上能解决资源定位问题,但是其效果并不理想,
论文部分内容阅读
伴随着互联网的高速发展,网络信息呈指数级增长。在如此海量的信息当中需要搜索引擎定位所需的信息。虽然通用搜索引擎在一定程度上能解决资源定位问题,但是其效果并不理想,对于专业领域的信息检索,很难达到用户的搜索需求。垂直搜索引擎的出现就是为了解决通用搜索引擎在专业领域的不足,其对特定领域信息的深度挖掘弥补了通用搜索引擎信息泛而不精的缺点。论文从理论和实践两个方面对垂直搜索引擎中关键技术做了深入研究。本文首先介绍了研究背景及意义、搜索引擎的分类和垂直搜索引擎在国内外的发展现状。其次介绍了垂直搜索引擎的基本工作原理、系统构成和关键技术。接下来,详细介绍了网页的主题表示,构造了本文的主题特征向量,分析了主题网页的分布特征。深入研究了基于内容的主题相关度判定和基于链接结构的主题相关度判定,分析了各自的缺点和不足。在基于内容的主题相关度判定的基础上引入网页重要度,设计了一个基于网页内容和基于网页链接结构的主题爬虫算法。对于主题爬虫中的主题孤岛问题,设计了一个基于动态调整最大深度的隧道穿越算法,该算法一定程度上缓解了网络孤岛问题。随后,设计了一个基于房产领域的垂直搜索引擎,对本系统进行了系统分析,设计了本系统的总体框架,详细介绍了各个子功能模块的设计与实现,并对本系统做了性能分析和功能测试。最后,对论文所做的工作进行相应的总结,并且提出需要进一步研究的工作。
其他文献
随着移动机器人技术的不断发展与成熟,机器人的应用范围也越来越广泛,涉及到军事侦查、探测救援、星球探索等领域。在这些高危险的场合里要求机器人能够代替人类完成任务。常
软件可靠性测评技术是保障软件系统可靠性的重要方法之一,在航空航天、交通运输等安全关键领域有着重要意义。为了适应现代高可信软件多任务、多模块化的发展趋势,本文立足于
在石油勘探领域,常常需要利用各种勘探手段获取地质数据,然后在计算机中将复杂的地质模型表示出来,以让地质学家更直观地观察地质特有的构造和属性,寻找和查明油气资源。本文
现有的图像搜索系统主要是基于内容的图像搜索,其最大问题是低层特征与高层语义之间的“语义鸿沟”,故本文采用目前用的最广泛的反馈搜索技术来解决此问题。但是医生对医学图像
随着片上系统,微机电系统和无线通信的技术的飞速发展,无线传感器网络技术得以实现。以其体积小,便于部署的优点得到快速发展,应用领域广泛,在军事领域,生态环境监测,医疗领域,道路状
流控制传输协议(Stream Control Transmission Protocol, SCTP)是新兴的传输层协议,拥有多宿和多流等特性。在下一代互联网中,越来越多的终端配备多接口,这为多路径同时传输(
增强现实(Augmented Reality,简称AR)技术能够将虚拟场景与真实场景完美融合从而实现对真实场景的增强和补充。跟踪注册是AR的关键技术之一,也是实现虚实场景融合的基础。将A
物流管理信息系统LMIS(Logistics Management Information System),是由人员、计算机软件、硬件、网络通信设备和其它办公设备组成的人机交互系统,完成的主要功能包括:物流信息
近年来,我国城市轨道交通事业尤其是地铁运输系统迅猛发展,为市民的出行带来了许多便利,但同时也使电能消耗迅速增加。现代经济的迅速发展必须依靠能源,而我国又是一个能源相对比
Web组合服务是将组件服务通过服务组合而成的,对于组合服务而言,每个组件服务是透明的,加之网络环境的复杂性和动态性,Web组合服务的执行效率成为一大难题。由于目前大多数的Web