跨领域中文模糊限制语识别研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhym821211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模糊限制语具有不确定性的含义,常用于缓和说话人的语气或减轻说话人对所陈述命题应付的责任。由模糊限制语引导的信息是不确定的信息,在信息抽取时,应将事实信息与模糊限制信息区分开来。模糊限制信息检测对事实信息抽取具有重要意义。英文模糊限制信息检测研究已取得了较大进展,而中文模糊限制信息检测研究处于起步阶段,并且尚未发现公开发表的语料库。本文研究构建了一个用于中文模糊限制信息检测研究的语料库,并进行了跨领域中文模糊限制语识别研究。针对中文模糊限制信息语料库的缺乏问题,本文在生物医学和维基百科两个领域,设计构建了一个具有24,000句规模的中文模糊限制信息语料库。研究了中文模糊限制语的分类,制定了模糊限制语标注规则。根据中文模糊限制语的类型及词性,制定了基于短语结构的模糊限制信息范围标注规则。实验统计分析了模糊限制语及其范围标注的一致性。基于本文制定的详细标注规则,模糊限制语及其范围标注均获得了较高的一致率。同时分析了模糊限制语的类型和领域之间的关系,结果表明模糊限制语具有领域特性。中文模糊限制语广泛用于生物医学文献、维基百科等各个领域。中文模糊限制语具有领域特性,为了在各个领域获得较理想的检测结果,需要在每个领域都要有足够的标注语料,而语料的标注费时费力。针对目标领域标注数据不足的问题,本文先后提出了跨领域中文模糊限制语识别方法。基于实例迁移和特征迁移的互补优势,提出了一种基于实例迁移和特征迁移相结合的跨领域中文模糊限制语识别方法。在生物医学和维基百科两个领域上的实验表明,结合方法取得了比单独基于实例迁移方法与单独基于特征迁移方法都好的识别性能。词向量能够挖掘词语间的潜在语义关系,提出一种基于词向量与迁移学习相结合的跨领域中文模糊限制语识别方法。实验结果表明,将模糊限制语候选词的词向量作为特征分别引入实例迁移和特征迁移学习,有效地提高了跨领域中文模糊限制语识别性能。进一步融合实例迁移和特征迁移的识别结果,最终,跨领域中文模糊限制语识别结果达到了72.39%的F值。本文构建的语料库为中文模糊限制信息检测研究提供了强大的资源支持。提出的跨领域中文模糊限制语识别方法,可以将中文模糊限制语识别推广应用于更广泛的领域,对中文事实信息抽取具有重要意义。
其他文献
随着Internet的普及,企业级网络应用的增长,VPN作为网络安全解决方案的一种,广泛应用于各种企事业单位的异地网络通信。随着VPN的广泛应用,用户对VPN的需求已经从基础的实现安全
网络的快速发展给人们的交流提供了方便,但同时也带来了问题,如果不加以保护网上传输的信息,就有可能被未授权者获得,从而造成巨大的损失。因此,人们必须采取各种机制来保护
蓝牙(Bluetooth)是一种短距离无线通信技术,利用蓝牙可以有效地简化移动设备之间的通信。作为一项新兴的技术,蓝牙以其强有力的技术背景和良好的市场预期,逐渐被业界所接受。
P2P技术,也称对等网络(Peer to Peer)技术,它与客户端/服务器(Client/Server)结构(也就是WWW所采用的结构方式)的一个本质区别是:整个网络结构中不存在中心节点(或中心服务器)。在
随着电网建设的发展,继电保护信号对通道的要求日益提高。目前电力光纤网络受到继保通信行业广泛关注,它依附于电力线路走廊,安全可靠,不受电磁干扰,成为继保通道的首选方案。但利
近年来,包括智能手机和平板电脑在内的移动智能终端发展迅猛,尤其是其在移动通信和多媒体处理上的能力均得到了极大的提升。这些设备均配备有高清摄像头、触摸屏及高性能的处
计算机系统已在国防、通讯、金融、能源、交通、医疗等关键领域中得到广泛应用,构建高可信系统已成为世界范围的重要课题。其中操作系统内核的安全可靠性是构建高可信计算机
随着城市规模的扩大和提倡建立节约型社会的需要,公共交通逐渐成为人们出行的主要手段。如何能够详细及时地提供公交信息,为广大乘客提供出行决策,是非常有必要研究的内容。
TTCN-3是被ETSI和ITU-T标准化的新一代协议和软件测试语言,有着广泛的应用前景。为了执行这种语言,需要设计专用的编译器或解释器,以及相关的测试平台。通过研究分布式测试系统
视觉诱发电位(VEP)是大脑皮层对视觉刺激发生反应的一簇电信号电位。从临床诊断的角度来看,通过VEP的少次提取,可反映出受检者视觉通路的完整性,在神经生理学研究以及临床诊