基于文本挖掘的短信分类技术的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:suzhenzsyf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手机短信作为移动通信中的一项基本业务,伴随着移动互联网的飞速发展,其使用量日益增长,功能范围日趋广泛,极大地方便了人们的生活。短信的大量使用致使用户在对其管理上存在一定的繁琐性,如查找利用重要短信数据显得较为复杂。本文研究的重点是如何利用文本挖掘技术对短信进行分类管理和利用。本文首先在介绍文本挖掘技术相关概念知识、文本预处理技术以及文本分类技术的基础上对短信的内容格式和结构进行了详细的研究,提出了一种短信会话的抽取方法,针对短信中特殊词汇给出了短信文本规范化的处理方式。然后比较了几种文本特征选择方法,选择了一种适合短信处理的特征选择方法。研究了常用的几种文本分类算法,详细对KNN算法的原理、步骤、优缺点进行了分析,并针对KNN算法对K值依赖过大和受训练样本密度影响较大的缺点设计了改进型KNN分类算法,即利用样本近邻类别相似度和类别中心向量对KNN分类算法进行改进。最后,在本文中知识技术研究的基础上,设计和实现了基于BREW的手机数据管理平台中的短信文本挖掘系统,从测试结果中得出,本文设计的系统可以有效地进行短信分类,通过对实验数据的对比可知,改进型KNN算法较原有算法在分类准确度上有所提升。
其他文献
本文对医学图像可视化移动立方体算法的二义性进行了研究,分析了该课题的研究背景及意义、国内外的研究现状,了解了面绘制及相关技术,重点研究了移动立方体算法的基本原理、主要
SSL协议作为电子商务中最重要的信息安全技术之一,是当前研究的热点。SSL协议位于TCP/IP协议模型的网络层和应用层之间,使用TCP来提供一种可靠的端到端的安全服务,它使客户端
伴随着虚拟现实技术和视觉技术的快速发展,三维虚拟人逐渐成为虚拟现实领域的研究热点,为实现虚拟人的个性化,三维虚拟人头部模型是不可或缺的部分。虚拟人的三维头部建模研
精确勾画出四维 CT(Four-Dimensional Computed Tomography,4D-CT)所有时相中的肿瘤区(Gross Tumor Volume,GTV)能够最大程度地减小内部肿瘤区(Internal Gross Tumor Volume)
图像识别属于人工智能的一部分,是当前学术前沿,诞生了众多的研究分支。本文选择了对图像识别的基础算法加以研究,分别为图像相似度、边缘检测和物体轮廓定位方法,并提出了新
目前,基于内容的商标检索是商标查重的一种重要的技术手段,该技术主要通过计算机自动地对图像进行特征提取以及特征匹配,最终返回与待检索图像相似的图像,避免了基于类目或文本的
多示例学习是一种新的机器学习框架,是机器学习领域中的热门的研究方向。近年来,有监督学习在很多应用领域中已经取得了的成功。然而,在现实应用中,许多问题依然难以用简单的示例
随着Internet网络的快速发展,产生了越来越多的针对个人的网络服务,这就需要越来越多的敏感数据要在公共Internet网络上进行传输。因为这些敏感信息关系到网络用户的个人财产安
随着互联网技术的飞速进步以及深度学习展现出强大的性能,基于图像和视频的各种应用也得到了前所未有的发展。然而,伴随着这些应用给日常生活带来便利的同时,也给社会带来了许多
随着应用程序规模的扩大,对内存系统的容量需求不断增加。传统动态随机存储器(Dynamic Random Access Memory,DRAM)的扩展性有限且刷新能耗高,难以满足未来应用程序的需求。新型非