分词方法相关论文
二进制代码相似性检测技术近年来被广泛用于漏洞函数搜索、恶意代码检测与高级程序分析等领域,而由于程序代码与自然语言有一定程度......
本文探讨了情报检索数学模型的研究进展以及汉语文献自动分词和信息压缩存储的若干方法.
This article explores the research pro......
本文通过对计算机汉语自动分词的分析和研究,提出了基于相邻知识的自动分词方法。介绍了汉语分词系统,该系统的自学习机制,提高系......
本文提出了一种快速汉语自动分词算法。其主要思想是利用汉语中两字词占75%的统计规律,提出了两字词根和两字词簇的概念。算法把三音节......
无论在自然语言处理还是在机器翻译中 ,自动分词都是一个重要的环节。本文讨论传统的切词方法中 ,歧义的形式 ,以及消歧处理方法
......
主动学习方法可以减少人工标注海量数据时的代价,因此在中文信息处理领域中具有非常重要的作用。文章提出了一种基于委员会投票的......
随着网络的发展,数字化信息迅速增加,人们对中文信息的处理也越来越关注,同时,现代汉语信息的处理和研究也显得尤为重要,计算机自动分词......
因特网上文本信息的迅猛增长给文本分类的精度与速度提出了新的标准与挑战。这就要求文本分类在提高精度的同时,还要进一步提升训......
在互联网蓬勃发展的今天,互联网上的信息更是浩如烟海。人们在享受互连网带来的便利的同时,却面临着一个如何在如此海量的内容中准确......
将数据挖掘的思想引入WWW信息处理领域,讨论了在WWW上进行信息挖掘所采用的算法和策略,设计并实现了一个采用向量空间模型的网络信......
互连网的中文信息导航已是信息社会发展至今急待解决的问题,中文信息提取和标引是完成信息导航最基本的技术处理。本文归纳介绍了......
翻译项目中翻译文档的分词效果的好坏直接决定了翻译的质量.目前存在的统计分词方法如互信息、t-测试度、接续指数等对高频词的提......
利用DSpace系统建立一个机构库后,如何从大量的数据中检索用户需求的文献,是DSpace挖掘的重要组成部分。为了提高Dspace系统的检索性......
针对专利文献的特点,本文提出了一种基于统计和规则相结合的多策略分词方法。该方法利用文献中潜在的切分标记,结合切分文本的上下文......
建立了基于本体的领域知识库,使用分词方法将非结构化文本分析转化为结构化文本,然后在知识搜索过程中使用本体映射技术,在结构化文本......
本文提出了一种有效的汉语分词方法。该方法在计算N元概率时采用统计语言模型中常用的Katz平滑算法,对计算N元概率时所用的最大似......
本文首先分析传统分词方式在信息检索应用中所造成的查准率、查全率及检索速度的问题。为同时解决上述问题,笔者构造了基于字词混合......
本文通过理论和实验的分析,在采用了新的压缩方法和索引表结构等手段,DM4的全文检索系统所存在的两大问题,即空间膨胀率过高和索引......
面对复杂的信息化环境,审计人员需要分析的非结构化文本数据日益增多,如被审计单位的规章制度、会议纪要、办公文档关键字词的检索......
本文提出了一种快速的多模式串匹配算法,并且将它应用在实时汉语文本分类系统的文本向量化中.本文对比了匹配算法和传统的分词方法......
本文对当前基于字典的中文自动分词方法的弊病进行了分析,提出了一种使用字频、串频和词频等统计信息进行中文文本无字典特征提取......
本文重点描述了现代藏语句法的形式标记和类型,定义出各类句法组块。结合当前自然语言短语分析技术的发展趋向,以藏语形式句法特征......
互联网的迅速发展导致网上信息飞速增长,形成了我们不能忽视“信息爆炸”的问题——信息极大丰富却导致知识的难以查询。目前,WEB已......
目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文......
通过定义类别聚类密度、类别复杂度以及类别清晰度三个指标,从语料库信息度量的角度研究多种代表性的中文分词方法在隐含概率主题......
汉语自动分词是计算机中文信息处理系统的基础和难题,本文对近年来的汉语自动分词的研究方法与成果进行了分析综述。探讨了分词中存......
ESA is an unsupervised approach to word segmentation previously proposed by Wang, which is an iterative process consisti......
词链现象是书面汉语自动分词的困难所在,本文针对词链现象的复杂性,提出了一种“生成——测试”分词法。这种方法以知识为基础,它......
本文深入地分析了歧义切分字段产生的根源和性质,把歧义字段从性质上划分为四类,并给出了消除每一类歧义切分字段的有效方法。在对......
为解决各种鱼类病害不能及时诊断的问题,提出了基于网络技术构建鱼类病害诊断系统的思路与方法。系统可对各种鱼病及时进行诊断。......
沧海横流方显英雄本色。越是在困难的环境下,越能体现一个人的特质。而在智慧星光公司总裁白剑波看来,李青龙身上最大的特质是他的......
A local and global context representation learning model for Chinese characters is designed and a Chinese word segmentat......
西藏自治区昌都市洛隆县初级中学 【摘 要】藏文分词是藏文信息处理领域的一项不可缺少的基础性工作,也是智能化藏文信息处理的......
介绍了常用的中文自动分词方法,在此基础上,给出了中文自动分词系统的理论模型,指出评价自动分词系统优劣的性能指标,并对分词系统......
在高校题库内容重复率是评价题库建设质量的一个重要指标,为了快速找到题库中重复题或相似度很高的试题,本文主要研究了基于关键词......
一、中文信息处理的字频统计我国在70年代曾组织“七四八工程”,对2100余万汉字的语料,进行汉字的字频统计,得出了《现代汉字综合......
汉语词频统计是汉语言处理的一项基础工程。汉语词汇量巨大,人工统计精度上难以保证。由于存在编码输入、分词等方面的困难,直到八......