贝叶斯同语言模型相结合的中文文本分类方法的研究

来源 :内蒙古大学 | 被引量 : 1次 | 上传用户:sueprding
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上可用信息的日益增多,怎样快速而有效地获取有用信息成为人们研究的重要课题,信息自动分类就应运而生了。贝叶斯作为其中的一种分类方法,应用在很多领域。本文将尝试探索应用语言模型改进贝叶斯分类模型的方法。首先,我们对文本分类系统以及贝叶斯分类模型作了分析和探讨。然后,分析了贝叶斯模型的数据稀疏问题,并讨论了Laplace平滑技术的缺陷,提出了用统计语言模型来改善数据稀疏问题。接下来介绍了语言模型的三种平滑技术,分别是Jelinek-Mercer平滑技术、Dirichlet平滑技术以及绝对折扣法。最终,针对Jelinek-Mercer提出一种改进的平滑技术。本文最主要的工作是将统计语言模型的四种平滑技术应用于贝叶斯分类器当中。通过实验,找到了最优的平滑参数。最后得出如下结论:使用四种平滑技术改进后的贝叶斯分类模型的性能都优于朴素贝叶斯分类模型的性能,特别是采用了改进平滑尺度的Jelinek-Mercer平滑技术后,分类器的性能得到较大改善。
其他文献
中文全文检索系统是信息产业中发展较快的一个领域,而一个中文检索系统的核心就是索引器,本文介绍了索引器构造的不同算法模型,对相关的技术进行了比较,分析了各自的优缺点和实现
嵌入式设备的大量普及,移动通信技术的快速发展,实时系统在日常生产生活中的广泛应用,导致了需要嵌入式设备管理的实时移动数据日益增多。在此背景下,结合了嵌入式系统、移动
随着金融市场的全球化、一体化、自由化,金融市场中的资金流动也相应的呈现自由化、全球化。在整个金融网络中,除正常资金流动之外,还存在黑钱、热钱等异常的资金流动。如何
随着计算机的联网,网络安全就成了一个问题。为了防范网络入侵,入侵检测技术成为了人们研究的热点问题,入侵检测系统试图监视和尽可能阻止可能的入侵或者其它对他人的系统和
现今社会,政治、经济、军事和社会生活各个领域都越来越依赖于计算机的存在,存储设备不断更新换代,数据量越来越大,数据的安全性也不断得到更高的重视。而数据库作为数据的聚集体
智能家居自面世以来,经过十来年的发展,从不太引人关注,到市场发展火爆,其根本原因是其本质上的变化。智能家居发展前期,系统构建是基于PC的,实际应用场景并不理想。而在目前阶段,移
在资金异常流动的监测中,面对各金融机构汇报的大额和可疑数据,账号之间的关系繁杂,无法提高监测和侦破效率;现有的一些复杂网络可视化软件无法适应金融网络的可视化要求,难以
随着软件工程技术的发展,基于组件的软件开发已成为软件工程领域的研究热点,同时在实际应用中第三方组件市场也已经形成。组件技术的发展极大地促进了软件开发的效率,但组件
在计算机辅助几何设计中,曲面上的插值曲线研究是一个十分重要的课题。本文主要讨论可展曲面上的插值曲线,经过分析,构造曲面上插值曲线的关键在于找到一个好的参数化方法,也
P2P网络技术作为当今最流行的网络技术之一,被美国《财富》杂志称为改变因特网发展的四大新技术之一,甚至被称为无线宽带互联网的未来技术。传统的P2P网络对加入网络的节点(pee