最大熵方法及其在自然语言处理中的应用

被引量 : 0次 | 上传用户:luzhiqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,计算机技术得到了飞速的发展,机器的存储量越来越大,运算速度越来越快,而价格却越来越便宜,这样的客观条件推动了基于语料库的统计自然语言处理方法成为目前自然语言处理研究领域的一个热点。最大熵方法是一种基于统计的机器学习方法,近10年来,成功应用于自然语言处理的许多领域,并且都接近或达到最佳水平。 所谓最大熵方法就是遵循最大熵原则建模,也就是选择这样的一个统计概率模型:在满足约束的模型中选择熵最大的那个。最大熵方法的优点在于它有简单的哲学原理以及数学推理作为基础,在最大熵模型这个统一的框架下,非常方便的使用多种特征,而且特征之间没有独立性假设,模型表达能力强。它的缺点是训练速度非常慢,耗资源。 在这篇论文中,我们首先介绍最大熵方法的基本原理,数学推导和基本算法。然后分别从训练和执行两个方面提出快速方法:选择性增益计算方法和稀疏特征树方法。选择性增益计算是一种快速的特征选择方法,它能使特征选择的速度提高2到3个数量级。稀疏特征树是一种高效的特征集合表示方法,基于稀疏特征树的特征匹配算法的时间复杂度与特征个数的对数成正比。最后介绍我们实现的最大熵通用工具包,以及把最大熵方法用于自然语言处理的一些实践。
其他文献
<正> 谷丙转氨酶(简称 SGPT)是目前诊断病毒性肝炎(简称肝炎)最敏感的指标之一,SGPT 的升高在很大程度上反映了肝细胞的受损情况,SCPT 的动态变化基本上与病情的活动程度相一
针对目前护理工作中出现的一些不正常现象、存在的诸多问题以及遇到的种种困惑,分析这些现象发生的各种原因,阐明问题的根源,并提出了一些可行性建议,以期解决目前护理工作存
本文在对国内外供应链研究现状分析的基础上,进一步明确了供应链的概念;在对食品加工业现状深入分析的基础上,提出了食品加工业供应链的概念,探讨了食品加工业进行供应链管理的可
通过本人的学习、工作经验,对于丰田生产方式的发展历史、理论与技术体系、哲学内涵和实施步骤进行了一些简单的分析和探讨。丰田生产方式(TPS—Toyota Production System)经
进入二十一世纪后,世界经济飞速发展,各世界知名公司为了种种经济利益,选择并购这一最直接、有效的手段加强自身的竞争力!并购成为二十一世纪商界最吸引人眼球的一道风景线。
词汇是语言的重要组成部分,它在语言教学的过程中起着关键性的作用。听,说,读,写,译五大技能无不依赖对词汇地充分掌握。几十年来,国内外学者从不同角度对外语词汇学习进行了
数千年的发展,中国古典诗词与花鸟画早已绾结在一起,它们互相借鉴,相得益彰。因此,本文打破艺术门类研究中经常存在的相对封闭的状态,将视点放到古诗词与花鸟画之间的内在联
词汇学习是语言学习中的一个重要环节,中学的词汇教学日益受到教师的重视。在我国,词汇的教学始终未能摆脱高投入低回报的困境。我们的学生普遍词汇量不足,有的学生掌握了大
目的:探讨层级护理管理模式在外科护理管理中应用的方法和效果。方法将本院外科100例护理工作人员分为对照组与研究组。对照组48例,采取常规管理模式;研究组52例,实施层级护理管
本研究以麦芽,麦麸为原料,制成麦芽汁-麸皮生长培养基和麦芽汁-麸皮高温浸提液培养基,用于植酸酶毕赤酵母基因工程菌PP-NP~m-8的培养。酶活可达5.5×10~4u/ml,是培养基优化前