分词系统相关论文
本文以大规模经过分词系统标注后的真实语料的统计数据为依据,对名词特别是二元"名+名"组合的组合能力以及合法性进行了初步的统......
本文从如何提高翻译质量出发,详细阐述了在日汉机器翻译系统中提高翻译质量的各种策略和方法.我们的日汉机器翻译系统包括分词系统......
在CRF模型下,进行单字标注和单元词标注的识别效果和识别效率的比较;实验结果表明,单字标注在付出更长运行时间的代价下,较单元词......
在基于搜索日志的基础上,根据语料本身具有的特点,对“N1+N2”型结构的名词短语进行全面的描述,其中包括各组成要素的特点和句法功......
分析了汉语姓名在各种类型汉语文本中的分布情况、汉语姓名组成的复杂性和自动识别姓名的难点,提出了自动识别姓名的策略和规则。
......
语言学科“九五”重大课题启动———简介《信息处理用现代汉语词汇研究》本刊记者由国家语委承担的国家社科基金语言学科“九五”......
复杂的汉语分词系统中,各种信息的有效集成是系统实现的关键。本文介绍了分调系统SegTag中信息集成方法,并讨论了信息集成结构中的两......
从汉语句法分析等后续处理的观点来看,分词错误所造成的不良影响必须予以重视。首先,分词错误,无论是在不该切的地方切了,还是在该切的......
文章归纳整理了面向Web的藏文文本对分词系统的要求,对比参照其他藏文分词系统的优缺点并借鉴汉语分词系统的一些好的方法,设计开......
歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种新的汉语分词方法,它利用所建立的歧义二叉树,得到多种切分可能,通过分......
无论在自然语言处理还是在机器翻译中 ,自动分词都是一个重要的环节。本文讨论传统的切词方法中 ,歧义的形式 ,以及消歧处理方法
......
一 引言建立一个“信息处理用现代汉语分词词表”是国家社科研究“九五”规划重大项目《信息处理用现代汉语词汇研究》之子课题 9......
藏文信息处理技术随着对语言文字信息处理研究工作的不断深入,逐步从字信息处理转向语言信息处理。与汉语、日语等语种的信息处理......
我们基于国家语言资源监测语料库,抽取中文组织名实例与上下文信息、文本外信息,建设了一个动态更新的中文组织名数据库,并应用该......
随着信息产业的不断发展,信息数据正在呈爆炸性地增长。如何从这些海量的文本数据中挖掘出我们所关心的信息,已成为重要的研究课题。......
本文探讨了改进的最大概率分词算法在藏语自动分词系统中对交集型歧义字段处理中的应用,旨在为臧语言处理提供理论依据。......
本文提出了一种有效的汉语分词方法。该方法在计算N元概率时采用统计语言模型中常用的Katz平滑算法,对计算N元概率时所用的最大似......
支持向量机是当前经常被使用的分类模型.本文使用支持向量机处理中文分词任务,并且在支持向量机的初步结果上,根据其分词特性改计......
对于一般的分词系统,由于数据稀疏而识别失败的未登录词往往被切分成单字串.这里将切分结果中连续的单字串称之为"单字碎片".本文......
该文提出了一个实用日语自动分词系统的算法。在系统实现中我们使用了伪双向切分方法,并注重解决自动分词领域存在的三个问题:①分词......
随着科技的发展和海量信息的涌现,信息处理技术已经成为当今世界发展不可或缺的一部分。要在海量信息中提取有用的知识,就必须要让机......
随着计算机科学的发展,自然语言处理技术在计算机信息检索系统中的应用越来越广泛。对自然语言处理的研究已经成为信息处理系统中......
介绍了书面汉语自动分词专家系统中的分词知识模型与分词知识表示,以及所用的推理机制。最后给出的实验结果表明:自动分词专家系统......
分析中文的语义,首先要对句子进行分词。从分词的基本理论出发,讨论了分词的几个主要算法,介绍了现在典型的分词系统,并对发展作了......
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的研究方法与成果进行了分析综述。探讨了分词中存......
本文为支持数字图书馆全文检索精度的提高,提出了一个基于本体论全文自动标引方案.该方案利用本体论的方法,强调词与词之间的内在......
词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它......
本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对......
随着当前信息化技术的发展,优化设计中文分析系统已成为必然趋势,有助于提升网络索引擎面对中文信息的检索能力,本篇中将分析基于S......
新词的识别和歧义的消解是影响信息检索系统准确度的重要因素.提出了一种基于统计模型的、面向信息检索的自适应中文分词算法.基于此......
提出一种基于近邻匹配新的分词算法Jlppeccz,该算法首先把一篇文章以标点符号为界线分成若干个句子,然后用近邻匹配方法把一句话切......
提出一种基于最大匹配分词算法的中文词语粗分模型,通过对最大匹配分词算法做出改进,解决了最大匹配分词算法所不能解决的一些问题......
汉语自动分词是中文信息处理中的基础课题。本文首先对汉语分词的基本概念与应用,以及汉语分词的基本方法进行了概述。接着引出一......
随着对语言文字信息处理研究工作的不断加深,藏文信息处理技术也逐渐从字信息处理走向了语言信息处理。跟日语、汉语、韩语等语种......
针对受限领域的特点及现有分词面临的困难,比较现有分词的方法,选择并改进了最大分词算法,设计了一个基于受限领域的中文分词系统,......
1989年7月13日,中文信息学会计算语言学专业委员会与北京部分语言学家共聚清华大学,就如何为推进我国中文信息处理事业携手合作展......
通过对CNKI检索得到的关于中文分词的文献进行统计和分析,发现逐年度研究发文情况,研究的项目支持情况,发文机构分布和研究主题等......
分词识别和歧义消除是影响信息检索系统准确度的重要因素,该文提出了一种基于语法和语义的使用约束矩阵的中文分词算法.该算法建立......