基于动态贝叶斯网的中文专有名词识别

来源 :山西大学 | 被引量 : 1次 | 上传用户:suiyuehenji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
专有名词的识别是中文信息处理领域的重要研究课题之一,目前尚未得到很好的解决。在大规模真实文本为基础的语料库研究的重要性日益突显的情况下,如何提高大规模语料库的质量成为关键,而专有名词的识别质量是影响语料库加工质量的一个重要因素,专有名词识别的自动化也能提高大规模语料库加工效率。此外,在信息抽取、问答系统、术语学研究等各个研究领域应用领域,专有名词的识别也是其基础性步骤。 本文针对真实中文文本中较为频繁出现的人名、地理政治地名还有组织机构名三类专有名词,提出了一种基于动态贝叶斯网模型的专有名词自动识别方法,该方法把文本中的局部特征、全局特征及语言学经验知识融入一个极具表达和推导能力的随机概率模型中,可以很好地识别专有名词。研究内容主要包括以下几个方面: 1.对专有名词的分类做了较好的研究,分析它们在单句中的局部特征,在此基础上,建立了专有名词的局部特征变量之间的相互依赖关系。 2.研究了专有名词在真实中文文本的互指等语篇信息,利用有效的互指消解规则,解决了专有名词名义性互指等问题,把全局信息融入系统,保证了有效地识别专有名词。 3.采用了基准模型与动态贝叶斯网模型相结合的方法,取长补短,充分利用了两种模型的各自优点,既保证了识别系统的效率,也保证了识
其他文献
随着数字化技术的飞速发展,数字视频信号的传输技术更是受到人们的关注。相比较其它类型的信息传输如文本和数据,视频通信需要占用更多的带宽资源,因此为了实现在带宽受限的条件
随着多核体系结构的崛起,多线程编程目前已经广泛使用到多个领域,如科学计算、桌面应用程序、网络服务器和移动设备。然而,多线程程序设计也给编程人员带来新的挑战和问题。数据
随着人类基因组计划的进展,对于基因的功能和基因组内各基因的研究逐步深入。研究基因在不同时间和条件下的表达情况,是认识基因功能的一个主要途径。cDNA微阵列技术可以同时
随着软件工程及相关理论的发展,OMG组织提出了基于模型驱动(MD)思想的新方法学——模型驱动架构(MDA),该方法在实际运用中得到了发展。但是,当前企业在采用MDA技术进行软件开发
在大数据的时代背景下,数据密集型计算面临着新的机遇与挑战。传统的单机文件系统在大数据的需求面前显得力不从心,被广泛应用的并行文件系统在高并发的数据请求下,其缓存性能也
BOSS在整个通信系统中处于非常重要的位置,它是电信运营商一体化、信息资源共享的支持系统。随着电信市场的不断发展和激烈竞争,以及新业务的不断出现,尤其是数据增值业务发展迅
针对目前Web服务中遇到的问题,研究界提出了将语义Web的技术应用到Web服务领域,为Web服务的描述提供语义信息,即语义Web服务(Semantic Web Services)。语义Web服务技术通过为
目前异构系统之间的信息交换和互操作已经引起业界的高度重视,并成为业务过程集成研究领域的一个热点问题。Web服务在Internet标准协议基础上,为解决异构系统的互操作和企业
虚拟现实技术(VR)是近年来十分活跃的研究领域,而虚拟手术是虚拟现实技术在医学领域的重要应用。可以用于术前对手术过程的模拟,提高手术的成功率,降低医疗成本。本文对给定
在桌面虚拟化环境中,虚拟机镜像文件经常采用集中的方式存储。当虚拟机大量并发启动时,由于网络拥塞或者物理机的磁盘I/O能力不足,经常导致启动风暴的发生,即虚拟机镜像文件从存