基于后缀树的海量短文本聚类技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:woyingla
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,快餐文化越来越普及。互联网上大量的信息越来越多的以短文本的形式出现,搜索引擎的返回结果和微博等都是这种形式的信息的代表。尤其是微博,在最近的国内国外的重大事件中,微博作为最主要的人们的沟通方式之一,在互联网中占据了越来越重要的位置。传统的文本聚类算法在处理这类新的问题时往往出现处理速度慢,处理的效果不够好等问题,无法满足实际需要。  基于后缀树的聚类算法是区别于传统聚类算法的一种新的文本聚类算法。该算法在较小的时间复杂度内取得了较好的聚类效果。针对现在数据规模的不断扩大和对算法效果更好的实际需求,本文对基于后缀树的聚类算法进行了深入的分析,通过遍历后缀树的基本簇生成了文本集的极小子集。基于这个极小子集,可以对整个数据集的特性进行判别,从而在避免大规模计算的基础上得到对文本集的估计。  将极小子集应用到传统的Single-Pass算法中,本文提出了新的文本聚类算法ST-SP*算法。该算法首先按照STC算法构建后缀树,并对生成的基本簇进行打分。然后基于这个打分对基本簇进行排名,并筛选出排名靠前的满足一定条件的K个簇作为整个数据集的极小子集。利用这个子集,本文计算出了适合Single-Pass算法的阈值。进一步的基于这个阈值,采用Single-Pass算法可以很快的对数据集进行较好的聚类。实验表明,采用以上算法可以较准确的找到Single-Pass算法的阈值,克服Single-Pass算法阈值确定的难题。进一步分析发现,通过将极小子集作为Single-Pass算法的初始簇进行聚类,可以在线性复杂度内,取得更好的聚类效果。  本文的后续部分讨论了极小子集的合理性问题,并提出将极小子集的思想应用到K-means算法中,用于K值的确定或者初始簇的确定等。基于上述分析和实验,极小子集可以应用到的其它聚类算法中。  基于以上的研究成果,本文设计并实现了一个包含ST-SP*算法的短文本聚类的实验原型系统,包括文本信息读取模块、预处理模块、算法模块和评估模块等模块,为进行相关的算法实验和研究提供了一个基础平台。
其他文献
近年来,光电技术突飞猛进,指纹采集仪器的功能也越来越强,高分辨率指纹识别逐渐走入人们的视野。相比传统的指纹识别,高分辨率指纹识别不仅能够提取更高分辨率的指纹细节信息
随着科学技术的日益发展,人们能获取到的数据量已经呈现出爆炸的趋势。如何能够利用好这些数据,特别是历史数据,越来越受到人们的关注。数据仓库、联机分析作为商业智能的重要部
随着软件开发领域的不断发展和系统规模的日趋复杂,传统软件开发方法暴露出越来越多的问题,如代码重用性差、软件研发效率低、模块间耦合度高等问题。当前软件开发技术已经难
随着互联网技术的不断发展,各种移动平台广泛应用,即时通讯软件日益丰富,在社交网络平台中,微博从一出现就受到了网民的大力追捧。由于其不仅具有实时性、原创性、灵活性等特
在全球3G浪潮和NGN建设高涨的今天,在移动通信向全IP网络架构演进的趋势下,IMS ( IP Multimedia Subsystem, IP多媒体子系统)作为下一代通信网(NGN)实现大融合方案的网络架构,在NG
随着信息技术的发展,各种来自内部和外部的攻击正源源不断地威胁着信息资源,于是保护信息资源的安全已成为一项刻不容缓的任务。访问控制是种行之有效的重要保护措施之一。近
分布式交互仿真技术是指采用协调一致的标准,通过网络将分布在各地的各类型仿真器互连,使用户可以参与交互作用的一种综合环境。这种技术是当今仿真领域的前沿和热点研究内容
随着多媒体计算机技术的发展以及网络技术的推广,信息安全越来越被大众所关注。数字密写技术和数字水印技术的基本思想都是将秘密信息隐藏在载体对象中,但是数字密写和数字水
随着工程科学领域对高性能计算需求的加剧,科学计算的规模迅速膨胀。例如军事、能源、医学、生物、气象和人工智能等领域需要更加快速有效的计算能力。传统的串行计算无法满
随着文明的发展,知识的普及,需要存储和传播的信息量越来越大,信息的种类和形式也越来越丰富,以纸本为基础,借阅为手段的传统图书馆服务机制显然不能满足读者的需要。更由于