论文部分内容阅读
潜在狄利克雷分配(LDA)被广泛应用于文本的聚类.有效理解信息检索的查询和文本,被证明能提高信息检索的性能.其中吉布斯采样和置信传播是求解LDA模型的两种热门的近似推理算法.比较了两种近似推理算法在不同主题规模下对信息检索性能的影响,并比较了LDA对文本解释的两种不同方式,即用文档的主题分布来替换原查询和文本,以及用文档的单词重构来替换原查询和文本.实验结果表明,文档的主题解释以及吉布斯采样算法能够有效提高信息检索的性能.