一个改进的中文分词算法及其在Lucene中的应用

被引量 : 0次 | 上传用户:yangzb5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理的核心问题之一。采用基于字符串匹配与统计相结合的算法能够较好的实现中文分词。该算法首先将中文文本以标点符号为切分断点,把待切分的文本切分成含有完整意义的短句,以提高字符串匹配算法的正确率。然后将每个短句分别按照正向最大匹配和逆向最小匹配进行扫描、切分,同时在每次扫描时,根据语义和语言规则对结果进行优化,将汉字、英文字母、数字分别进行划分,增强算法对不同类型文本的处理能力。最后,根据最小切分原则和统计的方法进行歧义消解处理。通常中文分词的算法分为三种,基于字符串匹配、基于统计方法和基于理解的。三者各有优缺点,改进的分词算法集成了基于字符串匹配算法在实现方式简单,效率高的优点,并辅以基于语言的基本规则提高了初切分阶段的正确率。在具体实现上,两次扫描分别采用了正向最大匹配与逆向最小匹配的算法。算法的选用分别利用了正向最大匹配切分片段数较少的优点和逆向最小匹配对多义型歧义解决较好的优点。利用语言规则优化则是在扫描的同时将汉字、字母和数字分开划分,并且对于汉字中的数词、量词,英文字母中的罗马数字再分别处理,较好的解决了多种类型文本的分词问题。改进的分词算法的歧义消解处理过程是根据两次扫描的结果进行比较,如果结果完全相同则直接输出。如果两次扫描结果不同,判断为有歧义字段产生,需要做相应消歧处理:如果切分的片段数不同,根据最小切分的原则选择片段数较小的作为结果输出;如果切分片段数相同,则采用统计的方法,利用词典中的词频来判断采用哪个结果作为正确输出。该算法的另一个改进是在词典的存储结构上,采用两字哈希、尾字链表处理的方式,对尾字链表按照词频排序,在一定程度上也提高了分词的效率。整个算法可应用于Lucene做为中文信息检索系统的组件,从实验结果来看,准确率比Lucene自带分词器有了较大的提高。
其他文献
对选定的风险资产进行组合投资,以条件风险价值(CVaR)作为度量风险的工具,建立单期投资组合优化问题的CVaR模型。目标函数中含有多重积分与plus函数,产生情景矩阵将多重积分计算转
随着均衡教育的发展,中学校园的建设进入了高潮,校园文化景观作为校园环境的重要组成部分,对中学生的教育及身心健康有着重要的作用。然而受全球化和城乡一体化的影响,使得中
幻想曲(Fantasia)[意],一种标题性的器乐曲体裁。往往形式规模较大,在音乐上具有即兴色彩的特征,是发挥作曲家的想象力而不遵循传统曲式的音乐体裁。莫扎特的钢琴作品风格纯
通过对高校、企业、党政机关事业单位人员个体特征和网络购物行为调查结果显示,消费者个体特性,即不同年龄、性别、收入及网络经验对网络购物频率和金额存在显著性差异,是影
主题演讲,即紧紧围绕一个主题,借助于“演”和“讲”二者的协调,通过有声、有形语言,将所知、所感、所悟,利用互动共鸣的方式,表情传义,反映生活的本质,揭示生命科学、自然科
<正>中央空调行业作为一个与社会关联紧密度比较高的行业,在我国已经有了很大的发展。据国内权威机构统计,中央空调市场销售额在2007年已经达到390亿元,而且还在以每年15%左
改革开放以来,我国制造业获得了长足的发展,目前一些行业的总量指标已达到世界最高水平,但我国制造业行业工资水平增长缓慢,目前仍处于较低水平,与发达国家甚至一些发展中国
为客观评估牵引推拿方法治疗腰椎间盘突出症 ( L IDP)的疗效。对 34例行牵引推拿治疗的 L IDP患者进行 1~ 3年随访 ,测量计算治疗前后 CT片上的椎间盘突出指数 ( DHI) ,并比较
从浅析非洲制药装备市场入手,分析了其市场前景,并阐述了做好非洲市场应注意的问题。
选用在夏季生长的玉米、丝瓜与在春秋季用大麦作指示作物,采用栽培法测定,对土壤凋萎湿度进行对比试验,确定玉米是在夏季测定土壤凋萎湿度比较理想的指示作物。