词典和机器学习相结合的生物命名实体识别

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:rifcumtd111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物命名实体识别(Biomedical name entity recognition,Bio-NER)是在分子生物学及医学领域对专业词汇加以确认和分类,这类专业词汇包括蛋白质、基因、RNA以及他们的活动位置,如细胞线等。当前海量的生物医学文献为文本挖掘技术提供了用武之地,可以使用该技术挖掘出海量文献中蕴藏的各种知识。为了得到基因、蛋白质等生物实体之间的联系,首先要在文献中识别基因、蛋白质等生物实体。因此生物命名实体识别是其他文本挖掘技术如关系抽取、假设生成、文本分类的基础。现阶段生物命名实体识别的研究方法大体可以分为基于词典、基于规则和基于统计机器学习三种方法。基于词典的方法简单实用,但是性能却限制于词典的规模与质量。基于规则的方法取决于规则的完备性和合理性,缺乏一定的适应性。基于统计机器学习的方法主要应用现有的人工标注好的语料在相应的统计机器学习工具下进行训练,生成目标模型,最后使用该模型去标注未知语料。该方法在移植到新的领域或其他自然语言文本时可以不做或只做较少的改动,已成为现阶段研究的主流方法。为了弥补单纯基于词典的方法的缺陷,并结合统计机器学习方法的优势,本文提出了一种基于词典和机器学习相结合的生物命名实体识别方法。基于生物命名实体词典和条件随机域(Conditional random fields,CRFs)训练获得“实体词性”(Part OfSpeech-Entity,POS-Entity)标注模型,对未知语料进行标注获得“实体词性”特征。同时根据生物命名实体的特点提取词形等特征,结合上述“实体词性”特征基于CRFs训练获得生物命名实体识别模型。为进一步提高识别性能,在“实体词性”标注阶段采取将生物实体分成不同组别,分别进行“实体词性”标注的分组策略。基于JNLPBA2004语料集进行实验,实验结果表明本文提出的基于词典和机器学习相结合的方法取得了较好的结果,在“实体标记”阶段应用分组策略后综合分类率72.83%。对实验结果进行错误分析,针对典型错误进行后续处理后综合分类率达到73.39%。
其他文献
大规模群体动画一直是虚拟现实技术研究的热点之一。群体动画技术广泛应用于游戏、电影动漫、建筑规划以及火灾等灾难现场模拟与辅助指挥。通过群体行为的真实模拟,可以辅助
模式识别研究的进程间接地推动了线上智能教育系统的发展。在针对数学学习的线上智能判卷这一应用中,由于答案有效的判分点往往在数学公式上,如何准确有效地识别出学生的手写
P4P网络全称“电信运营商主动参与P2P网络”,P2P过于强调“对等”,结点之间的交换完全是随机的,优先选择物理距离近的信息源,本地化文件片段交换就会使通信成本大大地降低,这
1994年,万维网(World Wide Web)出现。万维网极大地方便了人们的工作,它的信息广泛的可访问性以及开放性极大的鼓励了人们的创作积极性,同时也给信息检索领域带来了新的发展
随着数字电视相关技术的不断发展和完善以及数字化产品和信息服务在家庭中的不断渗透和日益融合,数字电视互动应用也日趋丰富和多样。数字电视互动应用和服务有着巨大的市场需
网格中资源具有地理位置分布、运行平台异构、种类繁多的特性,它们能动态的加入或退出网格环境。因此,资源的发现和监控问题成为网格技术发展中必须要解决的问题,也成为研究
访问控制是提高工作流安全性的重要机制。本文研究了当前基于角色和任务的工作流访问控制模型的应用背景,分析与总结了工作流访问控制需求要点,针对现有的访问控制机制在工作
网格计算自从第一次被用到科学和商业领域到现在已经取得了长足的进步。相信网格计算的下一个阶段是将网格服务提供给资源受限的设备,例如手持设备、PDA、智能手机、传感器等
未登录词识别一直是中文分词研究领域的瓶颈。为解决中文分词中未登录词识别效率低的问题,提出基于论坛语料对中文未登录词进行识别的新方法:首先利用网络蜘蛛下载论坛网页;然
随着WebService技术的发展,面向服务架构的思想不断成熟,把SOA架构思想引入到电子政务系统是一个很好的尝试.因为SOA架构思想是面向服务的,它可以把已有的服务进行重组封装,形成