【摘 要】
:
文本聚类是在无监督条件下对文本集进行划分的过程。K-means算法作为划分聚类中最典型算法之一,具有算法简单、伸缩性强的优点,对于大规模文本集的聚类有较高的效率。但K-mea
论文部分内容阅读
文本聚类是在无监督条件下对文本集进行划分的过程。K-means算法作为划分聚类中最典型算法之一,具有算法简单、伸缩性强的优点,对于大规模文本集的聚类有较高的效率。但K-means算法在处理包含长文本和短文本的混合文本集时,由于提取特征向量维度要求一致,短文本提取信息冗余,长文本信息损失严重,导致聚类效果不佳。同时,文本集中孤立点的存在和初始中心点局部优化的问题,也会影响聚类效果。为解决上述问题,通过研究和对比各类聚类算法,提出了三种改进算法:基于混合文本集的K-means文本聚类算法、基于距离的孤立点检测改进算法、基于距离的初始中心点选择改进算法。实验表明,基于混合文本集的K-means文本聚类算法,解决了处理混合文本集的问题,提升混合文本集的聚类性能,并加快算法的运行速率;基于距离的孤立点检测改进算法,解决了在聚类前必须预设孤立点个数的问题,使在不提供孤立点个数的情况下,能够准确地输出孤立点,并分析出每个孤立点的孤立强弱程度;基于距离的初始点改进算法,解决了密度分布不均时初始中心点的问题,使在密度分布不均匀的文本集中,能够输出理想的初始中心点。
其他文献
移动IP是对IP移动支持功能的补充,促使TCP/IP向无线移动领域拓展,采用移动IP来解决无线IP网络中的移动性管理成为一种必然。移动性管理是移动IP研究中的一个十分重要的问题,移动
随着计算机技术的快速发展和信息化的不断深入,大型互联网企业产生的日志量也呈现出爆炸式增长。通过分析和检测日志,及时发现用户行为和系统状态的异常,对于提高用户满意度
随着人们生活信息化水平的提高,生活方式将会产生巨大的变化。伴随着物联网的发展,在室内环境中出现了越来越多的智能化设备。而2010年低功耗蓝牙技术的问世,也使得基于蓝牙
基于属性的加密体制是基于身份加密体制的延伸,也是基于模糊身份加密体制的具体应用。在基于属性的加密体制中,身份用一系列描述性的属性表示,同时添加了一个更具灵活性的访问结
嵌入式系统已经广泛地渗透到科学研究、工程设计、军事技术、各类产业和商业文化艺术、娱乐业以及人们的日常生活等各方面。随着嵌入式系统越来越广泛的应用,嵌入式系统中的
轨道交通以其运量大、耗能低、快捷、准时、安全、舒适等特点,逐步成为城市公共交通系统的重要组成部分和人们出行的首选,越来越多有条件的城市已经或即将开始进行轨道交通的
跌倒行为检测算法是行为识别的重要组成部分之一,其研究不仅对儿童和老人的安全监护有着十分重要的意义,而且在一定程度上,还能促进智能视频监控技术的发展。本文主要是对计
互联网相关技术飞速发展,各级各部门政府都建立起了电子政务G2C平台,政民互动环节进一步加强。群众在电子政务G2C交互平台上反映的信息中隐含着大量的即将可能发生的重大事件
MANET是一种不依赖于基础设施,无中心的,自组织的无线网络,该技术组网方式灵活,功耗低,可以嵌入各种移动设备中,未来发展前景非常可观。随着MANET的研究的深入,为了最大程度发挥MANE
当今人类越来越重的网络依赖性令网络数据的规模呈现出爆炸性增长的趋势,文字作为重要载体,其相关的文本信息处理技术得到越来越多的关注。文本相似度量作为该技术的关键部分