论文部分内容阅读
随着近年来web2.0时代的到来和飞速发展,博客作为一项重要的互联网服务也一度出现了爆炸式增长,随着信息量的增大也带来了查找困难的问题。为解决这一问题,主要针对博客圈的检索服务——博客检索系统应运而生,然而通过分析我们发现目前的主流的博客检索系统还没有跳出网页检索的思路,即没有充分体会用户的需求而且对于博客资源特有的一些特征也没有完全利用起来。针对于目前博客搜索服务中存在的这些不足,本文在博客搜索工作中结合社区结构特点进行了一些新的探索和尝试,概括起来主要有以下几个方面:本文在对已有的社区发现相关工作分析的基础上结合博客自身的一些特有结构信息特征给出了一种针对博客领域的潜在社区发现方法,首先通过对博客标签信息的提取和筛选来获得一定量的博客作者感兴趣主题的指导信息,并以此指导信息结合聚类方法来完成社区发现任务,通过对比实验表明该方法在博客领域内可以有效提高社区发现的准确性。本文在对博客领域社区结构特点进行分析和挖掘的基础上针对博客搜索系统特定的用户需求提出了一种结合博客圈社区结构的博客排序方法。该方法融合了查询相关性,作者主题倾向性,查询主题倾向性等因素,并通过潜在社区的划分结果来对其进行建模和计算。这种针对博客检索系统用户需求的博客作者排序方法与通常的网页排序方法区别较大,同时也正是本文工作的主要特点所在。最后,本文结合以上工作设计并完成了一个博客检索系统,给出了系统架构中各模块的组织关系以及执行流程;并对各个子模块块给出了详细的设计和数据组织和存储方式;在本文的最后给出了博客检索系统实际应用效果的图示。