基于改进哈希算法的快速KNN文本分类方法

来源 :安徽大学 | 被引量 : 3次 | 上传用户:hflx152
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络的日益普及和人们对技术的日益依赖,使得数据越来越多的以电子的形式存储在计算机中。在当今高节奏社会,无论是在大型的企业数据中,还是在网络上,如何迅速有效的找到所需要的数据已经成为一个重要的话题。对此,国内外的专家提出了各种各样的技术,如数据库技术、关键词匹配技术和文本分类技术等。对文本进行分类能够有效的降低搜索感兴趣内容的时间,并且提高结果的准确率,在一定的程度上提高了用户的体验度。常用的分类技术如贝叶斯分类技术、支持向量机分类法、决策树等需要大量的时间来训练分类器,如果更新训练用的语料库的话,需要重新训练文本分类器。传统中的KNN分类器的一大优点在于其能够在语料增加的情况下,不用重新训练分类器,同时分类准确率也比较高,因此一直很是受欢迎。但是,KNN算法也有其瓶颈:需要计算待分类文本与所有训练文本之间的相似度,这会浪费大量的时间。本文提出了一种改进的KNN文本分类方法,根据具有最小方差的若干个特征建立相应的文本列表,搜索近邻文本时,先确定待分类文本的近邻文本在这些特征上的大致取值范围,从而依据哈希算法直接剔除掉绝大多数的文本,对于剩下的文本计算与待分类文本的相似度并找出最近邻的若干个,如果不满足K的要求,可以适当的扩展特征的取值范围直到满足为止。这种做法会极大的提高文本检索的速度。同时根据训练文本的类别与待分类文本的距离溢出率,对该类别中的文本与待分类文本之间的相似度进行适当的权重调整,从而提高分类的准确率。在筛选特征的时候,改进了传统的tf-idf算法,并且根据特征的词性、在句子中的成分、文章标题、摘要、所在段落的位置、所在句子的位置以及句子中的提示词对特征进行适当的权重调整。实验结果说明了这些做法能够非常有效的提高文本分类的准确性。
其他文献
现实世界是随着时间在发展变化的,时间是自然界的客观属性,是信息的重要组成部分。随着计算机科学和信息技术的不断发展,传统的DBMS已经无法实现对时态信息的处理,因此时态数
随着传感器技术、微电子系统、现代网络和无线通信技术的飞速发展和日益成熟,无线传感器网络(Wireless Sensor Network,WSN)逐渐被应用于国防军事、智能建筑、国家安全、环境
聚类分析一直是数据挖掘和知识发现领域最重要的研究方向之一,聚类技术也得到了越来越多的关注,并且广泛应用于工程、生物医药、市场营销、商业智能与决策分析等诸多领域,切
音乐具有情感,有的情感比较单一,有的情感可能比较丰富;由于主观因素的存在,每个听众对每首音乐具有的情感的标定也是不一的,这就对情感定义和情感库的建立带来难度。本文以音乐情
电力调度自动化系统作为电力系统运行调度与控制的大脑,用于实现对电力系统在线计算机控制与调度决策,其在电力系统中的作用日益显著。目前,我国正在大力进行智能电网建设,智能调度是智能电网发展的必然趋势,而智能调度的基础是电网调度自动化系统。因此,必须加强身份认证技术和访问控制机制,来保障电力调度自动化系统的安全。在身份认证方面,本文针对调度自动化系统存在身份冒充的问题,提出了一种新的双因子的双向身份认证
将互联网上海量的非结构化文本数据转为应用所需的结构化知识,使其可被计算机高效地利用是改进搜索系统,实现智能问答与机器阅读的基础。在这个过程中,实体链接技术扮演了一
近年来,学术界针对数据发布中的隐私保护问题已经提出了许多模型和算法,这些模型和算法在不同程度上解决了数据发布中的隐私泄露问题。但是,现有的模型和算法主要是针对分类
目前在计算机视觉和模式识别领域内,非负矩阵分解(NMF)越来越多得被用作特征提取。NMF寻找两个小的非负矩阵,使得它们的乘积能够最好的拟合原始矩阵。而非负的这个限制导致了
无线传感器网络是由在监测区域内部署的大量多功能、低能耗、廉价的微型传感器节点组成的智能专用网络。由于具有部署灵活、扩展方便、价格低廉等优点,无线传感器网络在工业、
数字水印技术在图像、视频和文本等多媒体载体上的应用已经成熟,但在嵌入式系统、集成电路设计等领域的知识产权保护仍处于探索阶段。考虑到设计和开发一个新的FPGA芯核电路需