论文部分内容阅读
为提高Web搜索精度和检准率,在后缀树聚类算法基本模型的基础上,提出了一种改进的基于后缀树的搜索结果聚类算法。将向量空间模型与后缀树聚类相结合,改善了基类合并的效果,综合基类节点对应文本数、短语包含词语长度、短语权重及是否包含查询词作为聚类标签的筛选条件,改进了聚类标签的合理性和可读性。以搜狗语料库中的文本分类语料库为数据源进行的实验结果表明,该方法在一定程度上提高了聚类结果的准确率。