第三代半导体材料领域文献的实体关系抽取研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:candry
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
第三代半导体材料因其优异的特性在光电子和微电子等领域具有重要的应用价值。而半导体材料领域文献是该领域知识的主要来源,文献中的实体关系是该领域知识的一种重要表现形式。随着近几年第三代半导体材料的迅猛发展,单单IEEE上每个月就增长近1000篇相关领域的文献。过多的文献增长使得研究人员难以及时、准确的获取领域内的最新研究动向或成果。为了能够让机器辅助处理大量领域文献,研究人员使用自然语言处理技术来帮助从文献中提取关键信息。然而现阶段针对通用领域或生物医学领域文献文本的关系抽取模型在第三代半导体材料领域并不适用。因此本文以第三代半导体材料领域英文文献的实体关系抽取为研究主线,针对该领域文献中的语言描述特点以及现有方法的不足,侧重于集成预训练模型和深度学习网络来抽取该领域文献中的材料、器件、方法等实体以及它们之间的关系,具体工作如下:1.针对现阶段缺少第三代半导体材料领域英文文献数据集的问题,本文收集大量该领域的英文文献,定义实体和关系类型,并对这些文献进行人工标注,标注完成后进行人工校验,最后生成两个数据集,分别用于命名实体识别和实体关系抽取任务。2.根据第三代半导体材料领域文献实体识别的特点,本文提出了动态融合BERT-Bi LSTM-CRF模型,该模型集成了BERT强大的特征提取能力和Bi LSTM-CRF结构的优点,解决了领域文献实体识别任务中远距离相关性以及上下文依赖问题。除此之外,本文对BERT模型进行了改进,通过给每个Transformer-encoder的输出赋予动态权重来加权融合这些输出,从而得到包含更丰富语义信息的向量表示,进一步提高了模型的性能。在Co NLL-2003数据集和本文构建的数据集上的实验结果表明,该模型均取得了比主流方法更好的效果。3.根据第三代半导体材料领域文献中实体关系的特点,本文提出了集成BERT和CNN的EI-BERT-CNN模型。该模型能够利用BERT来生成包含全局语义信息的词向量,同时利用CNN网络来提取句子充足的局部特征,解决了领域文献关系抽取任务中远距离依赖和局部相关性问题。除此之外,模型还通过实体信息模块融合了实体短语本身的信息,进一步提高了模型的性能。在Sem Eval2010_task8数据集和本文构建的数据集上的实验结果表明,该模型均取得了比主流方法更好的效果。最后基于动态融合BERT-Bi LSTM-CRF模型和EI-BERT-CNN模型实现了面向第三代半导体材料领域文献的知识抽取系统。
其他文献
当密度存在差异的两种流体相遇,密度相对较大的流体会在重力作用下潜入密度相对较小的流体的下方而形成异重流。在自然环境中,存在大量异重流现象和过程,河口盐水楔作为其中比较典型的一个分支,对河口周围环境有着举足轻重的影响。而盐水与淡水交界面这一特殊空间位置上的水动力特征,对盐水楔异重流的环境物质输运有着重要意义,研究盐水楔界面水动力悬浮过程有助于深入认识河口地区泥沙输移特性,从而为综合分析河口地区水环境
随着信息设备的不断普及,互联网用户每天面临着快速增长的海量信息。作为缓解信息过载问题的关键技术,推荐系统受到越来越多研究人员的关注,目前已经被广泛地应用在各个场景当中,例如电子商务、社交网站、短视频平台。推荐系统的目标是根据已观测的用户行为信息,预测用户接下来感兴趣的项目。用户社交信息和项目领域知识信息作为丰富的额外特征数据,已经在很多研究中广泛应用,以改进用户和项目的表征学习,提升推荐系统性能,
棉浆具有纤维长、强度好、聚合度高等特点,广泛应用于纺织、造纸以及化工等行业。在造纸行业,棉浆的制备通常选用棉短绒为原料,以碱性过氧化氢法一步蒸漂制得。但较多棉浆厂在制备棉浆时,存在蒸煮温度和用碱量较高的问题,不利于过氧化氢氧化脱木素,还会对纤维造成损伤,并且对环境污染较大。因此本研究针对棉浆制备过程中存在的问题,以清洁制浆为目的,选用二类棉短绒为原料,首先研究了较低用碱量、较低蒸煮温度的碱性过氧化
现代互联网技术和信息技术的发展,人们学习和教学的方式都发生前所未有的改变。一方面,近年来在线教育的需求急剧增加,对于学生来说,在远程学习中无法做到跟传统线下学习那样可以和老师面对面的交流,如何在线上尽快理解所学的知识是他们所需要解决的问题;另一方面,传统课堂教育的黑板板书限制了老师的教学速度和表达方法,学生要求更快地获取知识,而老师则需要想办法提高教学效率。虚拟现实技术作为计算机可视化技术的一个重
随着社会各方面的发展,噪声污染越来越严重,人们对隔声技术材料的需求日益増加,不仅仅需要提高隔声的效果,还要兼顾材料结构低频、宽带、轻质等方面的要求。受限于隔声质量定律,传统的隔声材料难以实现良好的低频隔声效果,而声学超材料的出现为解决低频降噪问题提供了一条新的思路。声学超材料是一种由人工设计的结构单元进行周期排列构成的复合材料,具有超常的物理性质,其能以较小的面密度实现特定的低频频段隔声。薄膜型声
科研机构与企业、高校是构建区域创新体系,支撑自主创新和产业转型升级的“金三角”,在加快要素驱动向创新驱动战略转变、全面实施创新驱动发展战略中具有不可替代的重要作用。研究科研机构与区域创新的耦合情况,对于制定科技政策、实现国家和区域的创新驱动发展战略具有重要的指导意义。在创新驱动发展战略背景下,科研机构应结合区域经济的特点重新定位,全力提升科技创新能力,为区域经济的发展提供强有力的科技支撑。本文从区
β-甘露聚糖酶因能将半纤维素中的甘露聚糖水解成小分子物质而广泛应用于生物能源、食品加工、饲料制造和石油开采等工业领域。在工业生产中,对甘露聚糖进行处理时往往需要用到具有高活性与良好热稳定性的β-甘露聚糖酶。本课题组前期筛选到了一株嗜热厌氧杆菌Thermoanaerobacterium aotearoense SCUT27,成功克隆了其β-甘露聚糖酶(Man25)的基因,并在E.coli BL21(
医学图像分割是计算机辅助诊断重要的一环,能帮助医生定位目标,实现定量的术前评估。为了全面了解病人的状况,医生往往使用多种成像技术对病人进行检查,进而产生多种模态的医学数据。近年来,针对多模态多输入的深度神经网络在医学图像分割领域取得重大的突破。但是多模态数据收集费时费力,临床中更多的是缺少一个或多个模态的情况。针对单模态设计特定网络的方案,加大了医生和研究者选择最佳模型的负担。为了摆脱多模态输入的
方向图可重构定向天线即可以把能量集中于需要的方向,也可以实时调整天线主波束的辐射方向满足复杂化的通信需求。同时电小天线可以使通信系统高度集成化,因此方向图可重构电小定向天线的研究变得越来越重要。另外,电小天线品质因数较大,带宽窄,而宽带天线能有效增加系统通信容量,提高传输速率,因此宽带电小天线的研究同样极具理论与实际应用价值。本文对方向图可重构电小定向天线和宽带电小天线进行研究。论文主要工作如下:
随着社会的发展,科技的进步,人们对于物质生活的不断追求,单一颜色的塑料制品已不能满足人们对于物质生活的需要。各个塑料制品厂家要求注塑设备厂商推出多色注塑机来满足市场需要,响应市场需求各厂家纷纷推出自己的多色注塑机,比如双色机,双清色机器。在双清色机器上发展衍生,这几年出现了一种市面上新的机器:混双色机。混双色注塑机的关键环节是射胶控制和溶胶控制,需要对液压控制和电气控制在内的控制系统进行重新设计。