基于领域特征的文本数据扩增技术

来源 :南京大学 | 被引量 : 0次 | 上传用户:love12355
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度神经网络技术的发展,基于领域文本数据集训练得到的深度神经网络模型逐渐应用到社会各个领域,用来解决各个领域中的实际问题。深度学习模型的构建需要大规模、高质量领域文本数据作为训练集。在实践中,领域文本获取成本高等原因会造成缺乏训练数据、样本分布不均衡等问题,并会导致深度学习模型的泛化能力较差。数据扩增是一种可以提高训练集大小的技术。目前,常用文本数据扩增技术处理文本数据时易影响体现文本领域特征的词语及语义结构信息,导致扩增后文本质量差,对于模型泛化能力的提高作用有限。鉴于此,本文以司法领域数据集为例,设计并实现了基于领域特征的文本数据扩增技术,包括对领域文本数据集的预处理步骤和四种特征扩增方法。数据集预处理是为后续基于领域特征的文本数据扩增提供支撑。基于TF-IDF权重的特征裁剪扩增方法是以文本分词在数据集中的TF-IDF值为依据,结合依存句法分析技术进行剪枝操作;基于主题模型的特征融合扩增方法是使用主题模型技术聚类数据集中相似文本,将待扩增文本与相似目标文本进行内容交换;基于依存句法的特征变换扩增方法是使用依存句法分析技术解构文本,将句法树中依存关系相同的树枝进行交换;基于词频词性的特征替换方法是基于领域数据集分析构建高频词表和词向量模型,将文本中符合高频词和相关词性的词语使用词向量模型推荐领域近义词进行替换。本文通过设计对比实验,在司法数据集上构建高质量文本分类模型,将特征扩增文本和EDA扩增文本作为测试集,实验表明特征扩增文本在保持类别标签方面表现较好,有效地保持了文本的领域特征。其次,在司法和媒体领域原始数据训练集中加入使用特征扩增方法和EDA方法扩增的数据,相比于原始数据训练的CNN和RNN模型,加入扩增数据后的模型准确率提升。总体而言,加入特征扩增文本的模型比加入EDA扩增文本的模型在测试集上的准确率提高幅度更大。实验表明,基于领域特征的文本数据扩增技术具有一定的实用性和有效性。
其他文献
年卡模式是商家推出的一种维持长期客户关系、快速回笼资金的营销手段,消费者通过支付较低的费用获得在一段时间内权益兑换的权利,年卡模式虽然总价格较高,但可以在规定时期内多次消费,使得消费者获得较低的平均价格优惠。年卡模式以价廉、方便等特点受到了消费者的青睐,同时各商家也纷纷推出年卡营销活动,如健身房、外卖、共享单车、机票等领域都出现了类似的年卡模式。但年卡模式相关的理论研究还较为缺乏,如它的作用机理、
随着人类社会对粮食产量的需求日益增加,引入现代技术提高粮食产量变得十分重要。水稻作为我国乃至世界重要的粮食作物,其产量极大影响着粮食安全。叶绿素含量是评价农作物健康状况、生产能力和环境胁迫的重要指标,实时、快速、准确获取水稻叶片叶绿素含量对水稻长势监测和田间精准管理具有重要意义。传统的叶片叶绿素获取方式需要破坏性取样,并且费时费力。随着技术的发展,遥感逐渐变成获取区域和全球农作物叶片叶绿素含量的有
开源软件开发是以人为本的知识密集型劳动。对于新手而言,最好的融入一个新项目的方式就是贡献一个自己的修复提交。缺陷报告是开发人员和报告者之间以特定格式详细描述缺陷发生情况的文档。新的开发人员虽已具备一定编程能力,但面对当前项目的缺陷库时却是一无所知的,此时他的身份是一个知识寻求者,因此需要一个可以引导他的知识提供者。使用知识图谱技术能将缺陷库中聚集的大量专业知识、经验、缺陷记录以及用户活动记录有效地
立体视觉是计算机视觉领域被广泛研究的课题之一,其在机器人避障、三维重建以及自动驾驶等领域有十分重要的应用。作为立体视觉的核心问题,立体匹配算法在很大程度上决定了整个系统的精度与耗时,而巨大的计算量、遮挡、弱纹理以及光影问题又对立体匹配提出了巨大的挑战,传统的双目立体匹配算法难以克服以上问题。在本文中,我们基于多基线三目相机模型,对于立体匹配算法进行优化改进以解决如上问题,并着手搭建了三目立体视觉系
变异测试通过执行变异操作以模拟典型软件缺陷,可以有效衡量测试用例集的缺陷检测能力。然而,变异操作通常会生成大量的变异体,编译、执行这些变异体会耗费大量的测试时间,导致变异测试效率低下、可用性不高。为了优化变异测试的效率,提升变异测试在实践中的可用性,测试人员通常采用变异选择方法对变异体集合进行约简。在执行变异选择方法时,需要多次执行变异测试以计算每次选择的变异体集合的质量得分,用以选择质量最优的子
学位
学位
太赫兹技术作为最为瞩目的前沿技术之一,在国防、航天、医学、通信、食品、环境等领域具有广阔的应用前景。作为太赫兹系统的核心器件之一,太赫兹探测器的发展也面临着更多挑战和机遇。室温太赫兹探测器具有体积小,结构紧凑,成本低,可在室温下工作等优势,是目前太赫兹探测器的主要研究方向。微测辐射热计通过热敏材料的热效应将太赫兹辐射转化为热量来探测太赫兹波,是目前主流的室温太赫兹探测器,具有室温工作、宽频探测、实
新生儿黄疸在新生儿中是最常见的一种疾病,病情严重时会导致患儿脑部神经系统受损,受损后死亡率高达65%,即便治愈也会对患儿的神经系统造成永久性损伤。蓝光治疗是目前最常见也是最有效的治疗新生儿黄疸的医疗手段,但是过度照射会给患儿带来一定的副作用。现有蓝光治疗设备无法自动控制光照,增加了患儿受到蓝光损伤的风险。同时,治疗过程缺乏远程操控手段,不但增加了医护人员的工作量,而且使得医护人员更加频繁地暴露于蓝
随着电子商务的迅猛发展,国民对物流运输的需求飞速上升,物流相关企业如雨后春笋般涌现,如何降低物流运输成本成为物流行业发展的关键问题。近年来,一部分学者将前沿技术与物流规划问题相结合,衍生出了智慧物流这一研究领域。装箱和车辆路径规划问题是经典的NP-Hard问题,一直是物流运输领域研究的重点。在很多场景中,物流运输中需同时考虑装箱和车辆路径规划,并且通常有多种备选车型。因此带装箱约束的多车型车辆路径