弱标签标注环境下的分段式语义标注方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:qiaoqiao06242005
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的文本分类算法需要文本数据具有相对完备且准确的标记数据,然而现实情况中,完备的标记数据难以大量获取。因此,本文研究并验证了一种基于领域本体的语义标注和句群划分的方法,解决了在信息检索、信息抽取和自动文摘等领域的应用中,将弱标记文本数据进行语义标注并使之划分成相对独立的句群,并令非结构化的文本数据可以呈现结构化这一问题。为实现在弱标签环境下进行语义标注,本文提出了一种基于领域本体对文本进行语义标注的方法。该方法利用初始概念自动获取结构化语义概念集合,并根据获取的类别、实体、关系以及扩展词在文本中出现的频次、位置和关系等因素为段落赋予语义标签,挖掘文本的子主题信息,将文本中涉及但并未提及的主题词标注出来,方便进行更细致的段落划分。实验结果表明,该方法对于特定领域的文本标注的准确率、召回率以及F值分别达到了93%,78%和83%,标注效果能够满足实际应用需求,并优于现有的无需训练语料的文本标注方法。针对将语义标注内容更好的划分段落层次的问题,本文利用已用领域本体实现标注的文本资源的标注结果在双向LSTM神经网络以及注意力机制的训练下,对文本资源的自然段落进行句群的重新划分,一定程度上解决了自然段落划分缺乏系统结构的难题。数据表明,该方法能够有效地进行句群段落边界的自动识别,实现句群的自动切分。
其他文献
随着人们生活水平的提高,对肉类、蛋类以及奶产品安全性的关注日益高涨,寻找安全有效的抗生素替代品作为绿色饲料添加剂的必要性愈发迫切。本研究以秃疮花(DLF)为主要原料,对其作为绿色饲料添加剂的应用前景进行了探索。首先,使用控制变量法,设置梯度试验,从而对DLF中生物碱的提取工艺进行优化。随后,采用实验所得的最佳工艺对不同器官中异紫堇碱(ICD)含量进行比较。其次,以DLF为主要材料配合其它中药分别设
沙丁胺醇(Salbutamol,SAL)是人工合成的一类肾上腺素药物,常被非法作为饲料添加剂用于畜产品的生产,给我国动物源性食品安全带来巨大威胁。单链抗体(Single-chain variable region fragment,Sc Fv)因具有分子量小、操作简单而且生产成本低等特点,已逐渐成为建立免疫学快速检测方法的重要研究对象。因此,本研究旨在利用噬菌体展示技术构建鼠源免疫噬菌体单链抗体库
低噪声窄线宽光源在光通信和高精度传感领域有着广泛的应用,光源的噪声特性和相干性直接影响着通信系统性能和传感测量精度。外腔结构的窄线宽半导体激光器通过增大腔长,适当引入外腔光反馈,有效地实现了噪声抑制和线宽压窄,是目前较为理想的一种光源。本论文从外腔选频原理出发,基于传统外腔半导体激光器基本模型,介绍了一种新型标准具选频结构的外腔半导体激光器,深入研究分析了其输出激光的线宽和相位噪声特性,并在此基础
随着全球信息化建设的加速,企业的专业文档管理系统在日常运作中会积累大量的电子文档。系统中文档数量的不断增加导致用户不能快速获取所需的文档,严重影响了企业的办公效率。面对系统中海量的文档资源,针对不同用户的个性化文档推荐子系统可以高效地帮助用户发现其感兴趣的文档。本文的重点是对个性化推荐子系统中的推荐算法做进一步的改进和优化研究,并用各项实验评估数据进行对比分析来证明改进算法的有效性;同时,文中也对
5G技术致力于解决未来指数式增长的移动数据流量、万物互联以及如雨后春笋般出现的各种新业务、新场景[1]。5G带来的服务体验是跨时代的,因此对5G传送网络提出了崭新的需求[2]。当前阶段我国在5G领域的发展有目共睹,目前我国已在部分城市进行了5G试点,国外也同步进行了小范围的5G试验[3]。目前,学者对切片分组网、软件定义网络、网络功能虚拟化等问题的研究已取得一定进展,而5G传送网设备中流量管理的技
新型诊断协同治疗纳米材料的构建已成为目前化学和材料学等多学科交叉领域的点与前沿。传统纳米材料缺乏微环境响应性,在生物体内难以实现良好的诊疗能力,限制了其在生物体中的应用。在传统光诊疗中,由于组织对激光具有吸收导致激光对不同深度组织的穿透能力具有差异以及肿瘤并非各向同性这一特征,导致光治疗不能彻底的杀灭癌细胞。而手术治疗作为临床上常用的肿瘤治疗手段,可以有效地去除肿瘤和边缘组织。因此两者可以有效地结
5G NR即新空口技术中,终端和基站之间的无线接口是一个完全开放的接口。其中物理层的设计是整个5G系统设计中最核心的部分,相对于4G时对峰值速率、频谱效率、用户体验速率和时延等关键性能指标有更高且更全面的要求,本文研究内容为物理上行共享信道(PUSCH)的信道估计和信道均衡中插值滤波功能基于现场可编程门阵列(FPGA)的设计实现,是上行信号到物理时频资源映射中重要的一环。由于无线信道的衰落特性受到
OLT是PON网络中“最后一公里”的核心设备,其性能和智能化程度是整个接入网质量的重要影响因子。传统OLT存在资源固化、难以保证业务Qo S、运维成本高等问题,导致接入网业务开通流程复杂、差异化配置复杂,难以为用户提供差异化服务。若在传统OLT中引入vOLT系统进行虚拟化可以解决现网面临的问题。近年受到广泛关注的SDN技术旨在改变网络的整体架构,通过开放北向接口以及分离转发设备和接入网设备的转发平
随着社会的快速发展和科技水平的日新月异,能源和矿产资源被开发使用的速度越来越快,导致很多不可再生资源的逐渐匮乏,海洋资源吸引了人类的注意。在海洋尤其是深海的资源开发过程中,无人无缆水下机器人(AUV)因其作业范围大等优点发挥了重要的作用。AUV在深海环境作业时,其安全性至关重要,抛载机构在保障其安全自救和升沉驱动中发挥着不可替代的作用。全海深AUV可工作于1100米深的海底,其抛载机构的功能性和可
本论文研究了由1-吡啶-β-咔啉(1-Py-β-C)和6-甲氧基-1-吡啶-β-咔啉(6-OMe-1-Py-βC)两个β-咔啉生物碱衍生物作为配体的镍和铜的金属配合物:[NiⅡ(6-OMe-1-Py-βC)Cl(μ2-Cl)]2(3)[Nin(6-OMe-1-Py-βC)2(NO3)(CH3OH)]·NO3(9)[NiⅡ(1-Py-βC)Cl(μ2-CI)(C2H5OH]2(14)[CuⅡ(6-O
学位