基于用法属性的现代汉语介词短语边界识别研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:a7343022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于介词属于虚词,本身并不像实词那样具有具体的词汇意义,但是介词与其介引对象所构成的介词短语在句法分析中却具有重要意义,介词短语结构在汉语文本中是最常见的短语结构,因此对介词短语结构的自动识别是面向自然语言处理的重要内容之一,本文尝试在介词知识库研究成果的基础上,用基于规则和统计两种方法对介词短语边界进行自动识别,从实验结果来看,统计方法的结果平均比规则方法的结果要高23%,不同的统计模型,对于介词短语边界的识别效果是不同,其中ME模型最好,CRF次之,SVM实验结果最差,此外,在加入介词用法属性特征后,三种统计模型在总体识别准确率上比仅基于后界和后词为特征的识别总体准确率都有所提高,ME提高了0.14%,CRY’提高了0.01%,SVM提高了0.22%。实验结果表明介词用法特征从总体上是有助于介词短语边界识别的,这也说明本文基于介词用法属性进行介词短语边界识别的研究策略是有效的。本文所做的主要工作包括:(1)按照俞士汶等人提出的建立现代汉语“三位一体”的广义虚词知识库的构建思想,在彭爽、咎红英等人初步构建的介词知识库框架内容的基础上,完善了介词知识库。(2)将在构建介词知识库中的形成的介词用法规则库转换成介词短语边界识别的静态规则,利用静态规则对介词用法语料库进行基于规则的介词短语边界自动识别实验。(3)对于介词用法语料库中的介词用法进行校对,并标出所有正确的介词短语结构,得到含有介词用法属性和准确介词短语边界标记的实验语料。尝试在实验语料中利用统计模型考察介词用法属性对介词短语边界识别的效果,验证介词用法属性特征对于介词边界识别是否具有有效性。最后,对论文的研究工作进行了总结与展望,指出构建介词知识库是有利于介词短语边界识别的,并根据本文的研究结果明确了下一步研究的内容。
其他文献
定位算法是井下人员定位系统的基础工作,因此,进一步研究高鲁棒性、高可靠性的井下人员定位算法对于决策指挥者获取准确的井下信息至关重要。本文参考了国家标准矿井结构图,
森林资源数据总是处于不断的动态变化中,随着各种林业活动的不断进行,如森林采伐、树种更新、营林造林、自然灾害等等因素都会引起森林资源的变化,为了有效的管理森林资源,并
车牌识别技术是智能交通系统中的重要组成部分,它在违章抓拍、不停车收费、停车场管理以及对重要场所过往车辆的实时登记等方面都有重要的作用。论文从实际应用角度出发,针对
信息技术的发展过程是一个对时间与空间的挑战过程,3G时代,人们追求在更少的空间上实现更高效更强大的功能。动态多应用智能卡本着“轻松持卡、方便用卡、减少重复发卡、避免
随着信息技术的发展与互联网的迅速普及,P2P (Peer-to-Peer)网络的规模急速增大,应用日益广泛。在P2P网络中,节点具有客户机与服务器的双重身份,网络的运行完全依赖于节点的
近年来,随着在线考试系统的推广和流行,针对计算机自动评分技术的应用研究已迅速地发展并成熟起来。但是,目前大多数的在线考试系统,由于无法或不能很好地实现对主观题的评分
近年来,物流行业凭借它巨大的利润空间在我国已经悄然兴起,成为中国目前最重要的竞争领域。在物流企业运作成本中配送成本占了极高的比例,摆在物流从业者面前主要的问题是如
随着网络和现代通信技术的飞速发展,信息隐藏技术已经成为信息安全领域一个新的研究热点。其原理是利用载体中存在的冗余信息来隐藏秘密信息。它通过隐藏通信过程的存在来获
当今社会随着地理信息技术的迅猛发展,地理空间数据量急速增长,传统的存储和处理方式已经难以满足需求。如何高效的存储和处理海量地理空间数据,正逐渐成为各大IT企业和知名学术
随着嵌入式实时应用系统的迅速发展,面对着不断增长的嵌入式软件开发的复杂性压力,如何高效的开发嵌入式应用程序,成为软件工程学迫切需要解决的问题;同时,系统的非功能属性,