基于单词超团的文本聚类算法

来源 :中山大学 | 被引量 : 0次 | 上传用户:zhangtingzhi2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网民的增多和互联网的大规模普及,大量文本数据的积累变得越来越容易,从而导致文本信息搜索困难和文本资源利用率低下。文本聚类作为一种无指导的文本自动归类技术,能够协助人们对海量的文本信息进行有效地组织和管理,并帮助人们从大规模的文本资源中快速、全面地定位所需信息。因此,文本聚类在数据挖掘中扮演着越来越重要的角色。 文本聚类通过对文本的内容进行分析,将原始文本集划分成若干个类,同时要求类内的文本尽可能的相似,而类之间的文本尽可能的不相似。基于单词频繁项集的文本聚类方法在单词频繁项集的基础上进行聚类,不仅能够避免文本数据高维稀疏性等特点所带来的影响,而且其聚类结果具有良好的浏览机制。然而,其聚类质量和聚类效率却并不令人满意。 针对基于单词频繁项集文本聚类方法存在的不足,本文将超团的概念引入文本聚类,并提出一种基于单词超团的文本聚类算法。该算法将文本集中的每个文本看成是事务数据库中的一个事务,同时把文本中出现的单词看成是该文本所对应事务中的项。对于给定的支持度阈值和超团信任度阈值,算法首先利用超团挖掘算法找出文本集中所有的单词超团,然后根据这些单词超团进行文本聚类。公共数据集上的多组对比实验说明:本文所提出的算法能够取得比FIHC算法和UPGMA算法更好的聚类精度和聚类速度。此外,本文还从理论和实验两个方面分析和验证单词超团引入文本聚类的可行性和优越性。
其他文献
随着信息技术的快速发展,基于视频流点播或直播的E-Learning作为一种新的教育方式应运而生。E-Learning打破了传统学习方式中时空的限制,使得学习者随时随地都可以进行学习。
优先级队列在众多领域有着广泛的应用,尤其是在离散事件系统仿真(DESS)中。传统的隐式堆结构难以满足实时性较高的DESS软件的要求,而整数优先级队列由于其效率和特殊性非常适合
近些年来,随着计算机技术和网络技术的发展,数字家居越来越受到行业的重视和家庭用户的接受,同时,随着数字电视的快速普及,双向机顶盒将成为数字家居中最常见的信息处理设备之一。
伙伴选择在虚拟组织的生命周期中的作用是非常重要的,是保证虚拟组织成功把握市场机会,快速应对市场变化,和保证虚拟组织安全性的重要步骤。目前这方面的相关研究也已成为虚拟组
随着我国经济的飞速发展,对各种能源的需求与日俱增,能源短缺问题日渐突出,尤其是对石油的需求更为紧迫,如何解决我国石油能源紧缺问题是许多科学工作者正在潜心研究的重要课题。
随着嵌入式设备的大量普及、移动计算的迅猛发展、实时处理技术的广泛应用,新的应用需求对传统数据库技术提出了挑战,应用于嵌入式环境的实时移动数据库管理系统已经成为数据
油田开发的目的之一就是获得最大利润,但在油田开发过程中存在着很大的风险,为了达到低成本高收益的目标,必须对油田开发过程进行风险分析,确保在减小风险的同时还要得到最大利润
分布式拒绝服务攻击是当今网络安全领域难以防御的攻击之一,它具有实现攻击容易、追踪困难、产生后果严重等特点,已经成为影响网络安全运行的一大难题。对分布式拒绝服务攻击
学位
随着世界范围内旅游业的发展、视频采集设备的普及化和网络视频共享服务的流行,旅游视频的数量和受众呈激增之势,对旅游视频标注需求也与日俱增。但对旅游视频标注涉及到了两个