论文部分内容阅读
随着博客影响力的不断增加,博客被更多领域的人作为交互和表达思想的工具,并以站点的形式在万维网上形成了博客空间。面对博客空间的急剧膨胀,博客搜索也变得必要迫切。尽管现有的针对普通网页的传统搜索已比较成熟,但对博客检索的效率并不高,因为博客站点在内容本身和之间的关系上不同于传统网站。如何在众多的博客中找到对用户来说重要的博客网页(或博文)或博客站点,最重要就是:如何定义博文或博客站点的“重要性”,并根据这种重要性对博客进行排序。博客是由一系列的博文组成的,用户搜索的一般目的就是寻找感兴趣的博文。因此可以把博文“重要性”作为博客排序的依据。影响博文重要性的因素有内容相关,链接关系或发表时间。本文从前两个因素出发分析博文与查询的相关度。本文提出了依据证据排序的SGRM (Space Graph Ranking Model)算法。首先提出了证据BE (Blog Evidence)的定义,并给出了根据博文证据进行博客排序的框架。博文通过三元组融合了“博文-博客”关系信息和“博文-词条”内容信息,并分别用矩阵表示。“博文-博客"关系矩阵信息的表示是通过实现从博文与博文关系再到博客关系的转移,“博文-词条"内容矩阵通过经典的VSM (Vector Space Model)表示的。接着,对得到的“博文-博客”矩阵和“博文-词条,,内容矩阵,先使用主成分分析PCA(Principle Component Analysis)法对这两个矩阵进行降维,之后使用了共轭梯度法对降维得到的两个低维矩阵进行联合,优化得到一个表示博文隐含语义空间LSS (Latent Semantic Space)矩阵;最后对LSS矩阵,用KNN (K Near Neighbour)法构建了一个隐义图LSG (Latent Sematic Graph)。最后,结合重排序思想和拉普拉斯特征映射LE (Laplacian Eigenmaps)的方法,构建了一个正规化排序框架,该框架包含初次查询的相关博文的相关度及其LSG子图。经过实验分析,得到最优排序性能下排序框架参数的设置;并在该参数下与其它排序方法进行比较,显示了较好的性能;同时分析隐含语义空间图对排序的影响,得到了较优排序性能下的参数设置。