论文部分内容阅读
生物命名实体识别(Biomedical name entity recognition,Bio-NER)是在分子生物学及医学领域对专业词汇加以确认和分类,这类专业词汇包括蛋白质、基因、RNA以及他们的活动位置,如细胞线等。当前海量的生物医学文献为文本挖掘技术提供了用武之地,可以使用该技术挖掘出海量文献中蕴藏的各种知识。为了得到基因、蛋白质等生物实体之间的联系,首先要在文献中识别基因、蛋白质等生物实体。因此生物命名实体识别是其他文本挖掘技术如关系抽取、假设生成、文本分类的基础。现阶段生物命名实体识别的研究方法大体可以分为基于词典、基于规则和基于统计机器学习三种方法。基于词典的方法简单实用,但是性能却限制于词典的规模与质量。基于规则的方法取决于规则的完备性和合理性,缺乏一定的适应性。基于统计机器学习的方法主要应用现有的人工标注好的语料在相应的统计机器学习工具下进行训练,生成目标模型,最后使用该模型去标注未知语料。该方法在移植到新的领域或其他自然语言文本时可以不做或只做较少的改动,已成为现阶段研究的主流方法。为了弥补单纯基于词典的方法的缺陷,并结合统计机器学习方法的优势,本文提出了一种基于词典和机器学习相结合的生物命名实体识别方法。基于生物命名实体词典和条件随机域(Conditional random fields,CRFs)训练获得“实体词性”(Part OfSpeech-Entity,POS-Entity)标注模型,对未知语料进行标注获得“实体词性”特征。同时根据生物命名实体的特点提取词形等特征,结合上述“实体词性”特征基于CRFs训练获得生物命名实体识别模型。为进一步提高识别性能,在“实体词性”标注阶段采取将生物实体分成不同组别,分别进行“实体词性”标注的分组策略。基于JNLPBA2004语料集进行实验,实验结果表明本文提出的基于词典和机器学习相结合的方法取得了较好的结果,在“实体标记”阶段应用分组策略后综合分类率72.83%。对实验结果进行错误分析,针对典型错误进行后续处理后综合分类率达到73.39%。