基于条件随机场模型的新词发现系统研究与实现

被引量 : 0次 | 上传用户:Red_Cell
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新词发现是自然语言处理领域一个非常重要的课题。它对词典构造及分词系统的性能有着很大的影响。但由于汉语自身的复杂性,新词发现问题一直是中文自然语言处理的难题。条件随机场是一种无向图模型,它具有产生式模型和最大熵马尔可夫模型的优点。既可以利用任意上下文特征,并对这些特征进行训练;又可以通过折衷不同位置的不同特征值的方法获得全局最优的标记结果。本文使用了条件随机场模型进行中文新词发现,并提出了两项改进:汉字粗标记和非法状态识别。加入这两项改进,能够将未登录词的召回率提高15%。这也是新词发现系统最重要的评价指标。而反馈库的加入,也将系统的准确率提高了30%。本文的研究内容主要包括以下几个方面:1)使用条件随机场模型进行新词发现工作,并对原始的条件随机场模型进行了改进,使用了汉字粗标记和非法状态识别的技术。2)为了保证词典的准确,系统加入了搜索引擎辅助筛选和人工筛选功能。3)加入反馈系统,能够将经过筛选的错误加入规则库,提高系统的效率。4)在处理网页信息时,使用了网页净化技术来处理网页。本文使用Sighan Bakeoff 2005封闭测试提供的北京大学人民日报语料作为实验语料,取得了0.933的F值,以及0.803的未登录词召回率和0.973的已登录词召回率。
其他文献
随着我国人口老龄化程度加深,养老问题日渐凸显。在传统家庭养老功能弱化、机构养老无法满足需求的情况下,社区养老成为主流养老模式。通过对杭州市主城区各类老年人的问卷调
结合某工程案例,按照性能化分析的方法建立火灾场景,从热传导和烟气蔓延的角度分析各场景情况,判断火灾从室内防火分隔带蔓延的危险性,检验现有室内防火分隔带的设计,能否从
我国面临着堪称人类历史上最为大规模、高速度的城市化,历史文化遗产保护也面临着历史上最为严峻的困难。历史文化遗产保护亟需法律和制度层面的政策设计,但更需得到全社会最
<正>8月18日下午,深圳衡韵丝绸服饰有限公司推出的时尚中国风品牌"衡韵雅序"在北京金源新燕莎MALL内举行了主题为"衡久美韵,优雅启幕"的新店入驻仪式。这是继5月份"衡韵雅序"
文章阐述了挺身式跳远技术教学与训练方法,并提出在学习和掌握各个技术阶段的训练手段和方法,目的在于使教练员更清晰地划分挺身式跳远技术的各技术环节,为在训练实践中提供
教学评估是大学英语教学过程中的重要组成部分,不仅可以让教师和学生对阶段性的学习成果有所认识,也可以为接下来的教学提供标杆,指明方向。文章通过对终结性评估和形成性评
继日本初高中一体化教育制度推广以来,日本中小学一体化教育也正向制度化方向发展。原因有二:一是少子化等社会背景;二是初一鸿沟,即初中阶段学业失败、厌学辍学等教育问题。
[目的]了解致病性啫水气单胞菌的存在状况和风险水平。[方法]采用分离培养、生化鉴定、序列测定和动物试验等方法,对2批孟加拉进口黄鳝进行致病性啫水气单胞菌检测。[结果]从
任何国家都可能会面临自然或人为因素引发的公共危机。在对这些公共危机进行处置管理时,政府需要承担政治责任。这种政治责任可以分为积极政治责任与消极政治责任。积极政治