结合社区结构的博客检索系统设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:libin101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来web2.0时代的到来和飞速发展,博客作为一项重要的互联网服务也一度出现了爆炸式增长,随着信息量的增大也带来了查找困难的问题。为解决这一问题,主要针对博客圈的检索服务——博客检索系统应运而生,然而通过分析我们发现目前的主流的博客检索系统还没有跳出网页检索的思路,即没有充分体会用户的需求而且对于博客资源特有的一些特征也没有完全利用起来。针对于目前博客搜索服务中存在的这些不足,本文在博客搜索工作中结合社区结构特点进行了一些新的探索和尝试,概括起来主要有以下几个方面:本文在对已有的社区发现相关工作分析的基础上结合博客自身的一些特有结构信息特征给出了一种针对博客领域的潜在社区发现方法,首先通过对博客标签信息的提取和筛选来获得一定量的博客作者感兴趣主题的指导信息,并以此指导信息结合聚类方法来完成社区发现任务,通过对比实验表明该方法在博客领域内可以有效提高社区发现的准确性。本文在对博客领域社区结构特点进行分析和挖掘的基础上针对博客搜索系统特定的用户需求提出了一种结合博客圈社区结构的博客排序方法。该方法融合了查询相关性,作者主题倾向性,查询主题倾向性等因素,并通过潜在社区的划分结果来对其进行建模和计算。这种针对博客检索系统用户需求的博客作者排序方法与通常的网页排序方法区别较大,同时也正是本文工作的主要特点所在。最后,本文结合以上工作设计并完成了一个博客检索系统,给出了系统架构中各模块的组织关系以及执行流程;并对各个子模块块给出了详细的设计和数据组织和存储方式;在本文的最后给出了博客检索系统实际应用效果的图示。
其他文献
在服务系统的全生命周期中,服务工程方法对其进行描述、建模、实现和运行维护,服务建模是其中的重要组成部分。对于参与服务的服务提供者和顾客来说,价值是其期望从服务中获得的
随着互联网技术和云计算技术的高速发展,出现了WebOS这种基于Web的新型网络操作系统,与此同时,Web应用程序的功能也变得越来越强。从某种程度上来说,WebOS和Web应用程序已经可以
本学位论文对周期函数的正常积分带重结点的Gauss型求积公式和含Hilbert核奇异积分的单结点Gauss型求积公式作了一些基础性研究.全文分为三部分:  第一部分讨论了关于权函
作为分析和预防网络蠕虫传播的理论基础,网络蠕虫的传播模型系统随着网络系统的千变万化也变得越来越复杂。现在已经存在的网络蠕虫传播模型还存在不足,主要是对其过程中一些客
伴随着互联网时代快速发展的节奏,基于web开发的应用程序也越来越成熟,技术也越来越复杂。由于web应用丰富的功能特性,以及便于通过互联网对信息进行比较、处理、传播的能力,
多Agent之间按照约定的协议进行通信和协调,使得整个系统成为一个性能优越的整体,可以解决单个Agent难以解决的问题。然而由于各个Agent所处平台和拥有知识的不同,以及通信消
微博媒体拥有大量的微博用户,用户间相互交流、发布、分享、传播信息,生成大量的UGC(User Generating Content)信息。用户为了找到感兴趣的微博信息需要花费大量的时间。因此,如何
室外定位技术由于有着GPS的帮助,已经非常成熟和准确了。但是在室内中,由于环境问题使得GPS并不是任何时候都可以使用。而且室内定位追踪是立体的,所以传统的GPS坐标并不能很
实时系统是计算机科学的一个重要领域,这类系统目前广泛的应用于生产生活中。随着多核/多处理器系统在实时应用中的日益普及,多处理器实时系统的研究成为当前的热点。可调度
作为目前信息检索领域十分有效的检索模型,基于语言模型的检索方法开辟了一个很有潜力同时也十分具有挑战的方向。与传统检索模型相比,以语言模型为基础的检索方法不仅具有良