汉语短语识别方法研究

被引量 : 0次 | 上传用户:wi7474974
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语基本短语及其结构的分析和识别是自然语言浅层句法分析的重要任务之一,对基本短语及其结构的分析能使句子结构比较清晰,为后续句法分析打下基础。本文在借鉴其他研究者思路的基础上,对短语规则及其结构类型进行了定义划分,在短语功能识别方面,提出了基于转换的HMM算法进行基本名词短语的识别。在短语结构识别方面,提出了基于互信息的最大熵模型算法,进行了汉语的短语结构识别。这两种算法都取得了比较满意的识别结果,其研究内容如下:1.语法规则与语法模板的构建:短语的内部构成信息、短语所处的上下文信息是浅层句法分析要用到的信息。本文分别从功能和结构两方面构建两种不同的模板,为实现基本名词短语和短语结构识别作基础性的工作。对基本名词短语的识别有助于提高对句子主干的分析和识别;对短语结构的识别,有助于进行句子的排歧处理,优化句子结构。2.基于转换规则的隐马尔可夫模型(HMM):首先利用转换规则和HMM模型分别进行基本名词短语的识别,根据理论知识分析了两者结合的思想,并提出算法,进行实验验证,结果表明了两者结合能够提高基本名词短语的识别率。3.基于改进的最大熵方法识别短语结构:分析已有的最大熵模型提出了基于互信息的改进算法,根据互信息计算句子中两个词语之间的依赖程度,然后利用最大熵的方法寻求上下文的特征,这样就选择了更有效的特征,减少模型特征选择的计算量,分析不同的特征选择算法和模型参数的估计算法,选择较好的适用于本文研究的算法,根据实验的模型求出熵最大的概率,最终实现对短语结构的识别。
其他文献
结合国家体育场大跨度钢结构设计,提出任意角度相交焊接方管桁架双弦杆KK节点的几何构型方法,可用于各种复杂角度的腹杆汇交、弦杆呈折线形、弦杆侧壁与腹杆侧壁不垂直等多种
本文主要探讨了创新创业教育与人文素质教育之间存在的紧密联系,认为创新创业教育与人文素质教育在素质培育层面上有其一致性,人文素质教育能有效弥补创新创业教育的不足,人
高校学生组织开展的活动是各高校提高校内学生综合素质,育人工作的重中之重。通过建立后评价模型对其进行评价可以总结活动经验,积累活动成功要素,在一定程度上对高校学生组
<正>由于目前泥鳅规模化人工繁殖和苗种培育技术不够成熟,导致苗种生产成本高,养殖的鳅种主要靠野生捕捞,数量、质量和规格没有保障,严重影响泥鳅产业的正常发展。本文是笔者
我要刑法中至今无以单位犯罪为适用对象的资格刑。本文提出增设以单位为适用对象的资格刑 ,并从与单位犯罪作斗争的需要和刑罚体系科学性的要求两方面论证了必要性 ,从我国行
通过对几种极限平衡法的对比分析,针对准东露天矿排土场的岩体特征,采用简化Bishop法对其进行了稳定性计算,并进行了滑坡机理分析,对排土场边坡的稳定性作出了科学评价。
食品追溯体系是一种基于风险管理为基础的安全保障体系,为政府、企业、消费者提供食品追溯管理、预测分析、风险评估和预警服务。如何提高追溯平台的有效性成为提高我国食品
通过对前奏曲内核的剥离 ,分析并写作单一材料型及对比材料型的前奏曲 ,掌握核心细胞组织的重复、贯穿、交换、衍生、层次、派生、结合、分离及贯一 ,从而促进由简单到高级、
激励指的是管理主体通过外部刺激激发、鼓励调动人的积极性的过程。激励在政府人本管理中具有重要的地位。激励是政府人本管理的核心;激励的关键是激发人的动机;在政府人本管