【摘 要】
:
近几年来互联网发展迅速,许多有价值的生物医学文献逐渐出现在网络中并呈指数级增长。这些专业的医学文献无疑促进了医学的发展并给生物医学研究者在医学研究方面带来很多便利。与此同时,还有很多患者在社交网络中分享自己服用药物后的症状以及不良反应,这些医学信息都可以作为医学研究实验的数据。无论是医学文献还是与医学有关的帖子都是可以促进医学发展的珍贵资料。然而在网络中医学文本的数量庞大,仅凭人力很难处理这些数据
论文部分内容阅读
近几年来互联网发展迅速,许多有价值的生物医学文献逐渐出现在网络中并呈指数级增长。这些专业的医学文献无疑促进了医学的发展并给生物医学研究者在医学研究方面带来很多便利。与此同时,还有很多患者在社交网络中分享自己服用药物后的症状以及不良反应,这些医学信息都可以作为医学研究实验的数据。无论是医学文献还是与医学有关的帖子都是可以促进医学发展的珍贵资料。然而在网络中医学文本的数量庞大,仅凭人力很难处理这些数据。除此之外,这些文本还是非结构化的数据,真正有用的信息都隐藏在句子中不能直接使用。所以如何快速的筛选医学文本并抽取其中结构化的实体关系对成为自然语言处理中一项热门的研究任务。本文研究内容主要可以分为筛选和信息抽取两部分。其中的筛选指的是对这些海量的医学文本数据进行一个初步的筛选并去除掉里面有相同语义或者是与医学无关的文本;信息抽取部分则是从非结构化的文本中抽取出结构化的数据。筛选部分包含生物医学文本相似性和生物医学文本分类两个任务。在文本相似性任务中使用孪生网络作为主要模型结构并通过注意力机制进行调整,其中我们利用改进的注意力机制放大文本特征中与医学信息相关的部分并降低句子中噪音的影响;而文本分类任务则是使用两种转换器双向编码表示(Bidirectional Encoder Representations from Transformers,BERT)模型作为预训练模型,再通过神经网络训练得到最终结果。其中的两种BERT模型分别为谷歌团队发布的标准BERT模型(Uncassed Base BERT)和我们用情感数据(Senti Word Net)训练得到的情感BERT模型。信息抽取部分则分为实体识别和关系抽取。实体识别任务指的是识别出句子中可以作为关系对象的实体(如药物、疾病、不良反应等);关系抽取则是识别出文本中实体间的关系,并对这些关系分类。在进行关系抽取任务之前,必须知道句子中的实体,而这正好是实体识别任务的目标,所以这两个任务间有着一定的联系。因此本文构建了一种实体识别和关系抽取联合学习模型,并用BERT模型作为联合学习的基础模型。本文对文本相似性、文本分类、实体识别与关系抽取任务进行实验,实验结果表明本文所提出的这些模型的有效性。
其他文献
全面抗战爆发前后,中日战事不断升级并由北向南蔓延,社会形势产生剧烈变化。《盛京时报》作为配合日方在华地区侵略行动的舆论宣传工具,对此阶段涉及战争前线和战线后方政治、军事、经济与文化内部矛盾的事件进行了大量的报道。本文以1937年5月—1937年11月间的报道为切入点,通过梳理不同类型、内容的报道,探究《盛京时报》作为中国近现代史中存在的一个文化实体在此时段内企图发挥怎样的作用,进而分析其报道的特点
截止目前,我国依然处于构建财务共享服务中心的起始阶段,要想更好地发挥财务共享服务中心的作用,对其实施有效、合理的绩效评估方案必不可少。绩效评价有利于更好的发掘财务共享中心现存缺陷与问题,而及时根据问题做出改善和调整则是维护共享服务中心长期可持续发展的关键。本文从定性和定量两个方面对绩效评价的方法、指标的选取和权重计算等进行了深入分析。以平衡计分卡工具为基础,采用层次分析法确定指标权重,构建财务共享
变量泵-定量马达系统在工程上取得了相当广泛的应用,而泵-马达系统的另一种构成形式定量泵-变量马达系统不仅工程应用不多,而且对其进行的基础理论研究也较少。这主要是定量泵-变量马达系统内部控制因素相互耦合,调速范围较小等因素导致其综合控制性能不强的原因。但是定量泵-变量马达系统拥有变速输入,恒速输出的调速特性,使得它在某些特定的场合有着独特的应用,特别是近十年来快速发展的风电行业,催生了对定量泵-变量
夫西地酸(Fusidic Acid,FA)是从梭链孢酸脂球菌(Fusidium coccineum fungus)的发酵液中分离得到的一种甾体类抗生素,主要具有抗革兰氏阳性菌活性。其结构与头孢菌素P1、烟曲霉酸相似,但活性更强,也是唯一一个应用于临床的梭链孢酸类抗生素。其独特的抗菌机理使其与其他抗生素几乎无交叉耐药性,应用前景广阔。当前FA主要是通过微生物发酵的方式生产,且国内外相关报道较少。本课
澧县洼陷作为江陵凹陷西南部的一个次级洼陷,其古近纪地层中发育石盐、硬石膏、钙芒硝等盐类矿物,形成规模较大的蒸发岩矿床。该矿床属于典型的陆源碎屑-化学岩型盐类沉积,得
微生物气溶胶在大气环境中分布广泛,参与大气循环,对人体健康以及环境产生重要影响。目前针对微生物气溶胶的大部分研究集中在地表样品的时空分布和影响因素探究上,缺乏对微生物气溶胶垂直分布特点的研究,尤其是在霾污染频发的秋冬季。而研究秋冬季微生物气溶胶的垂直分布规律,有助于更好地理解微生物气溶胶的时空分布特征,进一步揭示微生物气溶胶时空分布与霾污染之间的关系。有鉴于此,本文在西安市设立3个高度采样点(地面
作为数据特征挖掘的典型方法,小波分析理论的应用越来越受到广泛关注。为精准的描述零件表面的特征,分析其对零件使用性能的影响,本文基于小波分析理论对表面微观几何形貌进
染料在纺织、橡胶、塑料和制革等工业中有广泛应用,但是在染色过程中有残留染料污染水体,其中吸附是一种有效的方法。研究发现三维(3D)多级孔纳米结构因其超高的比表面积、结
有机电致发光二极管(OLED)近三十年来受到了学术界和产业界的广泛关注,在新一代的平面显示和固态照明领域具有很大的商业潜力。重金属磷光铱配合物被普遍认为是最有潜力的第二代有机电致发光材料,主要是因为参与配位的铱原子具有强烈的自旋-轨道耦合(SOC)作用,使得铱配合物在室温下可以高效地利用单、三线态激子发光,从而实现理论上100%的内量子效率(IQE)。热活化延迟荧光(TADF)材料是当前OLED领
智能电网的建设依靠各个节点的态势感知,而居民用户负荷监测作为智能电网的“神经末梢”,其用电特征对于推进智能电网需求侧管理具有重要意义。提取居民负荷用电特征的关键是非侵入式负荷监测(Non-intrusive Load Monitoring,NILM)技术,NILM技术依靠智能算法对居民负荷进行分解,从而得到每一时刻居民负荷的组成,对服务用电用户、管理电网能源和电网的错峰调度都具有重要意义。在分析了