【摘 要】
:
传统的聚类算法,如k-means算法、EM算法等,都是建立在凸形分布的样本空间上,若样本空间不为凸,算法将会陷入局部最优,因此不能对任意形状分布的样本聚类。hSync(Synchronizat
论文部分内容阅读
传统的聚类算法,如k-means算法、EM算法等,都是建立在凸形分布的样本空间上,若样本空间不为凸,算法将会陷入局部最优,因此不能对任意形状分布的样本聚类。hSync(Synchronization-Inspired Hierarchical Clustering)算法作为一种基于同步动力学模型的聚类算法,不用对数据的全局分布做假设,可以发现任何形状的簇,为求解中文文本聚类问题提供了一个很好的选择。本文针对文本聚类问题,在文本表示模型和文本聚类算法两个方面展开一系列的研究,主要包括以下内容:(1)分析和研究基于双词关联的文本表示模型和基于词共现的文本表示模型,提出了基于双词关联和词共现的文本混合表示模型,并设计了对应的特征抽取方法、特征权重计算方法和文本相似度计算方法。实验显示使用基于双词关联和词共现的文本混合表示模型求解文本聚类问题的结果相对传统向量空间模型在F-measure值方面有所提高。(2)研究并改进了hSync算法。将hSync聚类算法应用到文本聚类中,解决了传统聚类算法不能很好处理非凸形分布文本数据的问题。并针对传统hSync算法运算效率低的问题,使用基于?-邻域闭包的方法判断数据同步的趋势,并使用不断增大邻域半径增量的方法增大邻域半径,从而提高数据局部同步的效率,进而提高了hSync的聚类效率。(3)通过文本聚类实验,验证了基于双词关联和词共现的文本混合表示模型的有效性及改进的hSync算法的有效性。采用改进后的文本表示模型和改进后的hSync算法相结合的方法对SOUGOU-C文本数据集进行聚类,实验结果显示改进后的文本聚类方法在运行效率和F-measure值上都有提高。
其他文献
云计算的出现为许多IT传统产业开辟了新的领域,为许多较为成熟的IT传统技术指明了新的发展方向,特别是随着云计算技术的一步步成熟,它渐渐变成了一股强烈的浪潮冲击着传统产
IPv6正在全球受到越来越多的重视。IPv6协议的基本框架已经逐步成熟,在越来越广泛的范围内得到实践。分布式拒绝服务攻击(DDoS)是目前一种常见而有效的网络攻击手段。但拒绝
信息抽取是指从海量的文档集合中抽取需要信息的自然语言处理技术,是自然语言处理领域中非常重要的子领域,是近十几年发展起来的新领域。它的前身是文本理解,是一种浅层的文本理
随着网络通讯技术和仿真技术的发展,基于Web的仿真是一个适应新的历史发展趋势的研究领域。这也给电厂仿真培训系统带来了新的发展机遇和开发思想。本文在对基于Web仿真的体系结构、通信机制、组态软件等内容进行分析研究的基础上,提出了基于Web培训仿真系统的实现方案,并对方案中所涉及到的关键技术进行了研究,开发了电厂操作员仿真培训软件,在浏览器上实现仿真与实际机组完全一致的操作界面,提供仿真模型图形化组态
“皮肤听声国际专题网站”是一个主题性的网站,它的建立是为了让人们更多的了解“皮肤听声”这门新兴的信息理论。由于它涉及众多学科,故此,为了使得皮肤听声技术有更进一步的发
本文主要研究在异构环境下如何实现XML文档与关系数据库之间跨平台安全高效的存储、访问和管理。
XML到关系数据库的映射模式有多种,其中基于对象-关系的映射模式充分体
云计算为e-Learing提供了更好的平台。现在多数e-Learning平台不能在公有或私有云平台与私有网络架构之间共享资源,一般需要花费额外代价去部署环境。本文提出了一种基于VPN
多目标跟踪在军事和民用方面得到了广泛的应用。多目标跟踪问题主要包括跟踪门的形成、数据关联与跟踪维持、跟踪起始与跟踪终结、漏报与虚警等等。其中数据关联是最重要最困
随着信息技术的发展,互联网已成为人们获取信息的主要途径,如何快速的在众多信息资源中找到自己需要的信息,成为当前一个亟待解决的问题。互联网上的信息大部分是文本数据,而文本
网络计划技术是一门兼有技术性和工程性的新兴学科。随着网络计划技术的不断推广,其理论的不断成熟,越来越多的优化算法应用于工程项目的网络计划范畴中来。本文分析和比较了网络计划中的优化算法,特别讨论了粒子群算法,并对其改进形成了基于速度松弛策略的模拟退火粒子群算法(RSAPSO)。对资源,工期,费用,质量等多方面进行研究后,建立了资源均衡模型和多目标优化模型,并引入改进后的粒子群算法进行求解。实验证明,