论文部分内容阅读
经过几十年的发展,Internet已经成为世界上最大的资源库,其绝大部分信息都是以Web文本的形式存在。为了充分利用这些资源、使用户准确地找到需要的资料、节约搜索时间、提高利用价值,出现了Web数据挖掘技术。利用分类、聚类、关联分析、趋势预测等技术从Web文本中发现和抽取用户感兴趣的有用模式和隐藏的信息。Web文档聚类是Web文本挖掘的一个重要研究分支,作为一种无监督的学习方法,不需要训练过程,也不需要预先对文档进行手工标注,具有一定的灵活性和较高的自动化处理能力,能够对文档进行有效组织、获取摘要和导航。可以在一定程度上解决信息杂乱和信息爆炸的问题。作为信息检索、信息过滤、搜索引擎、数字图书馆等领域的技术基础,Web文档聚类有着广阔的应用前景。本文阐述了Web文档聚类的基本概念、方法、研究现状及存在的问题。从文档聚类分析过程角度介绍了Web文档聚类的相关理论和技术,包括文档数据表示模型、相似度测量、聚类算法、聚类结果评价指标和聚类算法分析等。提出了三个以短语特征为基础的聚类方法。①对于半结构化的Web文档,HTML标签标识出了文档的结构和不同部分的重要程度。针对这个特点,本文提出了用于Web文档聚类的加权后缀树聚类算法WSTC。本算法依据HTML标签把文档划分成具备不同重要性等级的段、段划分成句子,用句子构造文档集的加权广义后缀树模型,句子的重要性等级作为结构权值融入后缀树的节点中。基于文档间共享短语的识别,选择节点作为基类簇和合并基类簇。在此过程中,综合考虑节点包含的文档数、句子数、短语长度和节点的重要性等级。实验结果表明结合Web文档特点的聚类算法WSTC提高了聚类质量。②Web文档集的加权广义后缀树模型创立后,每个节点代表了一个短语,可以作为文档的一个特征。利用这个特点,本文提出了一种集成加权广义后缀树模型和向量空间模型的混合模型WSTVSM用于Web文档聚类。首先构造Web文档集的加权广义后缀树模型。然后,把后缀树的节点代表的加权短语及其权值映射到M维向量空间模型,扩展TF-IDF特征计算方案计算基于加权短语的文档向量的特征值,形成混合模型WSTVSM。在此模型上计算基于加权短语的文档相似度,利用组平均层次凝聚聚类算法进行聚类,取得了较好的效果。③一般地,划分型聚类算法,如K-means算法,时间复杂度低、聚类速度快,但是稳定性较差。本文在分析K-means聚类算法的基本问题后,提出了用WSTC算法改进其初始聚类中心的混合聚类算法STK-means。首先,构建Web文档集的加权广义后缀树模型,使用WSTC算法进行第一阶段聚类,分析聚类结果、提取K-means的初始聚类中心。然后,把加权广义后缀树模型的节点映射到向量空间模型;在第二阶段,K-means算法利用优化后的初始聚类中心产生聚类结果。WSTC算法速度快,能够在第一阶段快速获取初始聚类,K-means算法也较快,由此二算法组成的混合聚类算法,也具备速度快的优点,并提高了聚类质量。