基于知网的文本分类算法研究及应用

被引量 : 10次 | 上传用户:xieym28
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展,网络上的文本信息资源日趋丰富,互联网已经成为世界上最为巨大的信息仓库,也逐步成为公安机关新的重要公开情报源。然而面对浩如烟海的文本数据,公安机关不可能简单依靠人工去分析,文本分类是对文档信息进行自动的有序组织的方法,能够大大提高公安人员的工作效率,但传统的文本分类算法存在高维稀疏、多义词和忽略词语间语义上的联系等不足,不能满足现有公安情报分析工作的需求,在此背景下本文对文本分类算法进行了研究,并将研究成果应用到某省的实际公安情报项目中。本文首先介绍了文本分类的定义、一般过程和常用算法,总结了当前的研究现状;其次,为了更为准确地获取文本的概念特征,提出基于知网和上下文加权的词义消歧算法(HCWSD);然后,针对传统文本分类算法的不足,提出基于知网的文本分类算法(HOTC)。最后,将HCWSD算法和HOTC算法应用于公安情报项目的分类系统中。本文的主要研究内容如下:(1)提出基于知网和上下文加权的词义消歧算法(HCWSD),该算法借助知网词典将歧义词的义项与其上下文语境词确定的词义计算加权的语义相关度来对歧义词进行实时消歧无需语料库训练,克服了传统算法未考虑上下文距离对相关度计算的影响和计算存在不合理性等缺点。(2)提出基于知网和统计的概念相似度计算方法,该方法充分利用了知网词典和数据集的统计信息,克服了传统方法未考虑在不同数据集中词语相似度计算的不同的缺点。提出文本语义相似度的修正公式,克服了传统公式计算量大和计算不全面的不足。(3)针对传统文本分类算法的不足,提出基于知网的文本分类算法(HOTC),该算法首先利用提出的HCWSD算法对多义词进行消歧解决了多义词问题,并以消歧的概念表示文本解决了高维稀疏问题;然后以概念相似度计算文本的语义相似度,考虑了词语间语义联系;最后根据文本语义相似度对文本进行分类。(4)将本文提出的HCWSD算法和HOTC算法应用于公安情报系统中的分类子系统中。实际应用表明,利用该系统可以取得较好的文本分类效果。
其他文献
新中国成立特别是改革开放30年来,我国已建成房屋建筑物的面积迅速增加。据原建设部统计,全国房屋建筑面积总量在2005年已达400亿平方米,预计至2020年将达700亿平方米。与此
羊奶、驴奶、骆驼奶、水牛奶……如今奶制品市场早不是牛奶一家独霸天下。这些小众奶往往以"比牛奶更有营养"、"最好的奶"、"奶中之王"、"最接近人乳"等作为卖点。那么,这些小众奶真
吐纳麝香是一种人工合成麝香,香韵独特,留香持久,是现代高档香水、化妆品不可缺少的调香香料。吐纳麝香是由其中间体六甲基萘满(HMT)经乙酰化得到,而合成吐纳麝香最关键的就
随着医疗制度的改革,社区医疗卫生服务设施的逐步完善,传统的CS架构的社区卫生管理系统难以实现社区之间的信息共享和数据的统一管理分析,如何按需要实现不同社区之间的信息
目的:观察开天门干预中风后抑郁的临床疗效。方法:100例随机分为对照组和观察组各50例。两组均用西医常规治疗,观察组加用开天门干预。结果:观察组总有效率显著高于对照组(P〈0.0
《工程热力学》是过程控制专业教学质量工程中保证人才培养质量的核心课程,本文结合该课程特点,充分利用现代教育技术理念,改善以往传统教学教案设计方式,引入思维导图设计,
随着近海清洁养殖的兴起,鱼、虾、贝和藻立体生态养殖模式成为今后的发展方向,大型海藻---江蓠是立体生态养殖模式的主要藻类。江蓠可食用,主要还是用于提取琼胶。目前,江篱
利用暖体假人测定服装热阻时,考虑到着装后外表面积变大导致的边界空气层变化,需引入服装面积因子的概念,服装面积因子定义为着装外表面积与裸体表面积的比值,其fcl值大于1。
<正>一、汽车再制造涵义再制造产业是指在性能失效分析、寿命评估等分析的基础上,进行再制造工程设计,以先进技术和产业化生产为手段,进行修复、改造废旧产品的一系列技术措
会议
中央7号文件的颁布,以及教育部向全国中、小学校发出的“每天锻炼一小时,健康工作五十年,幸福生活一辈子”的倡议,促使我国校园体育文化逐渐形成了以课堂教学、大课间体育活