基于链接开放数据的医学实体标注

被引量 : 0次 | 上传用户:tyybj2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学领域文本数据使用的日益频繁,该领域的实体标注方法也显得越来越重要。实体的自动标注在处理很多问题上有着关键而高效的作用,其中包括文本信息的抽取、纯文本的自动分类、文本信息的提炼与总结、问答系统和基于文本的知识挖掘等。尽管目前有很多关于实体标注的方法被广泛的运用在生物医学实体的抽取中,但是,它们基本都会碰到例如数据的灵活性、语言的相对独立性和基于规则的词意消歧的复杂性等问题。另一方面,随着链接开放数据的发展,越来越多的开放知识库主动的把自己的数据链接到这个庞大的数据云上。最近几年里,互联网上结构化数据的数量迅猛增加。目前,295个不同领域的网络数据源中拥有数以百万计的RDF三元组,它们甚至连语言都不尽相同。如此众多的三元组所带来的则是大量唾手可得的实体信息与错综复杂但却易于挖掘的实体间关系。所以,研究者们可以高效的从这个庞大的数据云中获得某个特定领域的数据。在本文中,我们提出了一个基于链接开放数据的知识驱动的方法来解决在生物医学文献中进行实体标注的问题。通过这个方法,一个名为MeDetect的标准医学实体标注系统最终得以实现。这个系统很好的解决了前文提到的一些传统方法无法解决的问题。尤其是在实体的过滤与消歧义上,MeDetect利用庞大而又结构化的链接开放数据,采取了协同标注的方法,取得了良好的效果。最后,本文也通过实验证明该系统的有效性和效率。
其他文献
卡斯尔雷(1769—1822)是18世纪末19世纪初英国著名的政治家、外交家,在他早年的从政生涯中就表现出一种超凡的洞察力与远见,这在平息18世纪末爱尔兰因天主教徒解放问题而引起
《社会学想象力》是著名批判社会学家米尔斯最重要的代表作,这本书主要阐述了九大主旨、两大论题、一个概念和一个治学之道.社会学想象力是贯穿全书的核心分析概念,以这一概
刑事政策是刑法的灵魂和生命,刑法是刑事政策具体的条文化与定型化。所以,刑法的立、改与废是以社会生活的需要与变化为先导,以刑事政策为指针的。宽严相济刑事政策对于我国
国外学者的学术论点相互渗透、相互印证。从普拉哈拉德和哈默尔的核心竞争力理论,到有的学者归纳为整合观、网络观、协调观、组合观、知识载体观、元件-构架观、平台观、技术
以归因理论为依据,选取普通学校小三、初二、高二各两个平行班的学生,采用等组对照设计,一为实验班,一为控制班。实验分前测验、教育干预、后测验三个阶段。各班均参加前测验、后
<正>国外锰矿资源现状世界锰矿资源丰富。截止2008年底国外锰矿基础储量51亿吨(矿石量),其中,南非40亿吨,占国外总量的78.43%,居第一位;乌克兰52000万吨,占10.20%,居第二位;
珠江口作为广东省乃至全国人口最密集、经济最发达的城市群区域之一,围填海等活动逐年增多,导致珠江口海岸线变迁剧烈。本文利用1973、1981、1990、2000、2010和2013年6个时相
在对大样本民营企业治理特征和治理模式分析的基础上,探讨了民营企业治理结构与企业绩效的关系,结果发现,非家族企业的企业绩效较高,古典家族企业次之,其他类型家族企业的绩
南瓜籽中含有丰富的蛋白质、脂肪、维生素和矿物质等,油脂含量高达41%,油脂中富含棕榈酸、油酸、亚油酸和亚麻酸等,通过精制可成为食用油,油脂品质可与大豆油相媲美。南瓜籽粕是
黑龙江垦区作为我国最重要的商品粮基地和粮食战略后备基地,是我国商品粮调出量最大的省份,在保障国家粮食安全和我国农业发展方面具有重大的作用。同时黑龙江垦区地处我国北