【摘 要】
:
中文信息处理技术是我国重要的计算机应用技术,国务院制定的国家中长期科技发展纲领中明确指出:“中文信息处理技术是高新技术发展的重点”。而书面汉语自动分词是目前中文信息
论文部分内容阅读
中文信息处理技术是我国重要的计算机应用技术,国务院制定的国家中长期科技发展纲领中明确指出:“中文信息处理技术是高新技术发展的重点”。而书面汉语自动分词是目前中文信息处理中公认的难题,在中文信息处理中,凡是涉及句法、语义等研究项目(如机器翻译,自然语言理解等)都要以此为基本单位。”(冯志伟,1992)汉语词自动切分是中文信息处理各个领域中最基本的环节,也是中文信息处理的“瓶颈”。已有的分词方法一直执着于对传统文本进行切分和理解,但是由于汉语文本本身字连写的局限性,给汉语文本的自动切分带来了极大的困难。国内从80年代开始,陆续研究出了一些自动分词的系统,但是离实际应用还有一段不小的距离。罗海清的“隐性小词表”自动分词技术是其中—种比较好的系统,用汇编语言写成,具有占用空间小、运行速度快、对系统的依赖小等优点,我们试图在该系统的基础之上,作一系列的改进,争取使该系统分词在保持速度优势的情况下,进一步的提高分词的精度。本文共分五个部分,第一部分是文献综述部分,主要介绍了汉语书面语自动分词的重要性,从80年代初至今的研究情况;第二部分详细地介绍了罗海清“隐性小词表”自动分词技术,并在与同时期其他分词软件的比较中分析了它的优势和不足;第三部分我们提出了“隐性小词表+专业小词库”的分词模式,并选择了一个领域做了专业小词库的具体示例;第四部分是论文的总结部分;第五部分是专业小词库表。
其他文献
通过语言学者们在语言影响思维方面的大量模仿和象征性的实验表明语言已经成为承载意义和表达思想的主要工具。综合以前的研究,我们可以发现10-13岁的儿童会在自我表述中遇到
随着方言研究的深入,方言语法的差异已经得到了学者们的普遍重视,引起了人们广泛深入的探讨。相对于共同语复句的研究,对方言中复句的研究还远远不够。本文以邢福义先生所建构的
研究背景含有锌指结构域(zinc finger domain)的一类蛋白,被称之为锌指蛋白(zinc fingerprotein),作为转录因子,广泛存在于自然界,是真核生物最大的转录因子家族之一。作为最丰富的的
本文的研究意义:1)实践意义;本文选择以该行业龙头企业碎米芽菜公司为区域品牌营销推广主体,并为其量身打造了营销策略,有助于该公司提升区域品牌的知名度和其品牌优势,扩大销
患者,男性,30岁,近2年来感右大腿疼痛,活动后加重,2周前由于剧烈运动后右下肢活动不能,遂入我院就诊.查体:右股骨上段压痛明显,皮肤稍显红肿,右髋活动受限.
<正>干部工作质量和效率的高低与干部档案工作有着密不可分的关系。随着我国改革开放的日渐深入,干部档案工作中出现了各种各样的新情况新问题,现阶段干部档案工作的重心是如
磁性纳米粒子具有独特的磁学性质和优异的物理化学性质,由于其表面多为具有较强配位能力的金属或金属氧化物,因而易于被功能化修饰;而经过功能化修饰的磁性纳米粒子在此基础上又
20世纪以来,第三产业的快速发展成为了世界经济增长最显著的特征之一。作为国民经济的重要组成部分,第三产业发展水平是衡量经济社会发达程度的重要指标。保持第三产业的快速
在二语习得的研究中,母语的迁移作用一直为语言研究者所关注。主题突出和主语突出是众多的类型参数中的两个,许多学者通过对比这两个参数研究语言迁移。在二语习得研究领域中