小文本聚类技术及其在电子邮件中的应用研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:liongliong575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息数据量的日益膨胀给数据处理带来了一定的挑战,据统计约70%的网络信息是以文本形式显现的。然而,此类信息数量很多而且杂乱,聚类技术能够在一定程度上对这些信息进行重新分类和组织。文本聚类是数据挖掘领域的一项重要技术,主要的依据假设是:相同类文档的相似度较大,而不同类文档的相似度较小。同时,很多邮件和微博等内容大多以小文本的形式存在,其信息量大且更新速度较快。如何高效准确地处理小文本聚类变得至关重要。由于小文本相对于通常的文本所包含的信息量较少,大多数词并非能够完全表征小文本的特点,因而导致直接采用传统文本的自然语言处理技术来处理小文本效果欠佳。如何获取小文本的特征,并基于此进行聚类成为越来越受关注的课题。本文研究了小文本聚类问题,介绍了针对邮件小文本的聚类方法。首先介绍了小文本标准化思想构造特征词集来降低小文本的高维度;其次提出了EJaccard衡量小文本的内部聚合度;再次对k-means聚类算法进行了改进,先采用简单直观的层次聚类算法,解决了对原始信息依赖性问题,又对层次聚类进行了改进,通过控制给定阈值进而自动控制簇的数值;最后针对Email小文本数据,提出了局部聚类算法,有效的解决了小文本中不同内容的划分问题,同时提出了全局聚类算法,主要解决的关键问题是使得一个讲述两个以上内容的Email小文本能够被聚类到不同的簇中。针对Email小文本数据集,本文对局部聚类和全局聚类方法的实验结果加以分析,提出的方法可以有效地增大聚类结果局部和全局的差异性,从而改善了小文本的聚类效果。
其他文献
睡眠不足是当前十分普遍的社会现象,对个人的健康、生活、工作一定的影响。研究者通过睡眠剥夺实验研究发现:行为上人体的记忆、情绪、逻辑思考等认知功能受到睡眠的影响;生
语音编码技术是数字语音通信中的一项重要技术,它使同样的信道传输更多的信息。语音编码主要分为:波形编码、参数编码和混合编码。随着数字通信业务的发展,混合编码技术越来
在生物信息学中,将酶从蛋白质识别出来一直是对酶进行进一步研究的一个前提。其研究方法都是将已知的酶作为研究对象,找出一种对已知酶进行准确识别的方法,然后推广到对未知酶识
无线传感器网络技术被认为是21世纪最具有影响力的技术之一,已经被广泛的应用到了国防、工业、交通等诸多领域,成为了当前的研究热点之一,其安全问题也受到了广泛关注。与传
现代社会,生活节奏不断加快,在高楼林立的现代化城市中,电梯作为一种安全,高效的运载手段,己经遍及各种生活小区及产业园区。由于电梯的分布面广,运载对象众多,所以电梯成为了潜在而
随着Internet和Web服务技术的深入发展和普及,软件系统与网络的融合度越来越高,以网络为执行环境的软件系统规模、用户数量组成元素的交互频度都呈现出数量级的增长态势,成为
倒立摆是一种具有非线性、多变量、强耦合、欠驱动、自不稳定等特性的装置,可以直观反映控制理论中的稳定性、可控性、鲁棒性等许多关键问题,是研究和验证各种控制算法有效性
随着电子政务系统和电子商务系统的发展,信息系统的安全性需求越来越高。而确保信息系统安全的关键是对访问控制的研究。通过访问控制既可以限制对关键资源的访问,也能够防止非
教育资源建设是教育信息化快速发展的重要保证,但随之而来的是教育资源数量的剧增,为了避免教育资源形成信息孤岛,造成教育资源的重复建设,保障教育资源的全面共享,教育资源
在水环境监测领域,相比传统人工定时定点的监测方式,无线传感器网络技术以其覆盖范围广、自组织、价格低廉和实时性好等特点可以实现对监测区域全面的、实时的监测,因而逐渐得到