论文部分内容阅读
手机短信作为移动通信中的一项基本业务,伴随着移动互联网的飞速发展,其使用量日益增长,功能范围日趋广泛,极大地方便了人们的生活。短信的大量使用致使用户在对其管理上存在一定的繁琐性,如查找利用重要短信数据显得较为复杂。本文研究的重点是如何利用文本挖掘技术对短信进行分类管理和利用。本文首先在介绍文本挖掘技术相关概念知识、文本预处理技术以及文本分类技术的基础上对短信的内容格式和结构进行了详细的研究,提出了一种短信会话的抽取方法,针对短信中特殊词汇给出了短信文本规范化的处理方式。然后比较了几种文本特征选择方法,选择了一种适合短信处理的特征选择方法。研究了常用的几种文本分类算法,详细对KNN算法的原理、步骤、优缺点进行了分析,并针对KNN算法对K值依赖过大和受训练样本密度影响较大的缺点设计了改进型KNN分类算法,即利用样本近邻类别相似度和类别中心向量对KNN分类算法进行改进。最后,在本文中知识技术研究的基础上,设计和实现了基于BREW的手机数据管理平台中的短信文本挖掘系统,从测试结果中得出,本文设计的系统可以有效地进行短信分类,通过对实验数据的对比可知,改进型KNN算法较原有算法在分类准确度上有所提升。