【摘 要】
:
随着信息技术和网络技术的不断进步与发展,计算机成为了人类生活必不可少的一种工具。由计算机智能地处理人类语言的技术,即自然语言处理(Natural Language Processing, NLP)
论文部分内容阅读
随着信息技术和网络技术的不断进步与发展,计算机成为了人类生活必不可少的一种工具。由计算机智能地处理人类语言的技术,即自然语言处理(Natural Language Processing, NLP)技术便应运而生。词性标注(Part-Of-Speech Tagging)作为其中较为基础的一种预处理程序,对后续的工作和课题研究都起着至关重要的作用。本文使用基于隐马尔科夫模型(Hidden Markov Model)的词性标注方法,从如下几个方面进行了改进,以提高标注的准确率。首先,利用小规模训练语料进行半监督学习,通过反复迭代不断扩充语料,增强马尔科夫标注效果,尤其对于不同领域的语料,这种迁移学习也能提高标注准确率;其次,通过词语相似度的方法,给每个高频的未登录词都标上候选词性,对于频率低于10的低频未登录词,则采用相似字符串查找的方式找到相似上下文,用于标记词性;最后,在隐马尔科夫标注时,不仅选取一条路径,而是选两条最佳路径,并通过二次选择,得到最后标注结果。实验证明,该方法与传统隐马尔科夫标注方法相比提高了2.6%,汉语词性标注准确率达到了95.65%。
其他文献
随着信息化社会的发展以及人们生活水平的提高,人们对于自己住宅智能化水平的要求也越来越高。于是,“智能小区”也就越来越多的出现在了人们的生活当中。建设智能化小区,通过智
单点登录技术是一种可以方便用户访问网络资源的技术。在复杂的网络环境中、分布应用的情况下,用户只需要一次登录,就可以获得多个系统和应用服务资源的访问授权,这样可以在
依照人类视觉系统原理,针对目前自主式移动机器人在目标检测与识别算法上的局限性,研究基于特征线流的目标检测与识别算法。区别于传统光流法,该算法首先提取表征数字图像序
随着IP技术不断成熟和用户业务需求不断增加,对IP网络的可管理性和可运营性提出了更高的要求,迫切需要依靠可靠有效的IP网络管理系统对其进行管理。这就产生了以下需求:对于
网络化、智能化是传感器的发展趋势。IEEE 1451.4标准为传统模拟模式的传感器增加了自我标识机制。CAN总线是国际上应用最广泛的现场总线之一,具有可靠性高、实时性强、成本
集成了传感器、微机电系统和网络三大技术而形成的无线感应网是一种全新的信息获取和处理技术。本文在简要介绍无线感应网体系结构的基础上,分析和展望了一些有价值的应用领
地下水埋藏在地表下的松散沉积地层中,具有水质好的特点,有着极佳的利用价值。根据地下水数据,可以有效了解地下水的变化规律,而地下水数据可视化是呈现地下水水文地质情况、
移动自组网MANET(Mobile Ad hoc Networks)简称Ad hoc网,是一种新型的无线移动网络,具有易于建网、快速自组、适应性强、成本较低等优点,在军事和商业领域都有广阔的应用前景
手工电弧焊在中国工业生产中应用及为广泛,随着焊接需求的飞速增长,对焊接基础人才培养的需求也日渐增加。而焊工培训主要还是学生在培训基地进行焊接实际操作,即浪费焊接能源,也
细分曲面造型技术已成为图形学领域的一项重要研究内容。它通过定义控制网格和细分规则来表示造型曲面。由于细分曲面具有任意拓扑性、一致性和仿射不变性等优良的性质,因而