基于深度学习的金融文本多标签分类研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:bupingzhenren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习技术在金融市场中的应用如金融市场预测、信用评估以及金融情感分析等方面的表现相比于传统机器学习模型展现出了明显优势。随着计算机应用程序在用户中的普及以及计算机存储限制的突破,许多金融机构和相关部门存储了大量的结构化与非结构化数据以供将来使用。如何利用这些数据为个人或机构提供有用的信息进行行为决策和预测是现代金融中不可忽视的问题。本文研究了金融领域中一个关键又现实的操作风险分类问题,利用相关的金融新闻和金融风险专家发布的风险报告搭建智能分类系统来识别预先定义的风险,以辅助专业人员进行决策。然而金融领域中的文本数据很多但标记数据较少,这往往需要相关专家进行标记,这个过程耗时耗力导致标记数据稀缺;其次文本分类的可解释性也是一个亟需解决的问题;最后,传统的一些方法在处理多标签文本分类问题上,往往没有考虑标签之间的相关性,这也严重影响了模型的效率。针对以上问题本文设计了半监督向量量化变分自编码器模型(Semi VQ-VAE)与半监督多标签关系网络模型(Semi-MRN)进行金融风险分类。针对不平衡的标记/未标记数据和多标签文本分类缺乏可解释性的问题,设计了基于向量量化变分自编码器的半监督模型。它可以对标记数据与未标记数据进行建模学习潜在表征。此外,引入了向量量化操作有助于文本数据生成。进一步来说,向量量化操作将模型和潜在编码对应的模型容量进行了分配,允许模型在相同的潜在空间下对相关的样本进行分组。相比于在连续空间的自编码器,这种类似于经典的聚类算法的算法,更加简单有效;与Semi-VAE等半监督算法相比,文本设计的Semi VQ-VAE在汉明损失和Micro-F1指标中具有更好结果。随后,考虑到当前基于深度学习的多标签文本分类方法受限于在数据稀缺时实现快速学习和泛化的能力。设计了一个半监督的少样本学习方法来解决以上问题。它考虑到标签之间的关联性,使用自注意力机制的加权方案的少样本学习框架来构建问题,改进了风险组合的均值向量。该框架可以有效利用未标记的文本样本来调整均值向量的位置,从而更好地表示该风险类。在真实的操作风险分类数据集中对所提出的Semi-MRN方法进行了评估,结果表明它在识别新的风险类型组合任务时比基线模型表现出更好性能。
其他文献
“冰箱既要存烹饪食材还要存追剧零食,但不想厨房客厅两头跑?将左右拼合冰箱拆开,一半厨房、一半客厅刚刚好。跟着刘畊宏健身打卡满头大汗,但开空调又怕感冒?空调通过空表联动读取心率等数据,匹配最舒适的风……这样的生活你期待吗?”
期刊
随着城市现代化的推进,城市建设规模迅速发展,经济实力进一步增强。然而,在城市现代化的快速进程中,资源的损失也在不断增加。水资源是城市发展的重要资源之一,但在水资源的利用和管理中存在着忽视和缺乏合理规划的现象。因此,为了确保城市的可持续发展,我们应该了解水资源的使用以及如何管理和规划水资源。
浮游动物作为食物链中重要的的初级消费者,其群落结构特征是水生态系统健康评价的重要指标之一. 本研究于2017年秋季和2018年春季对渭河干流及秦岭北麓五条典型支流开展了系统的水环境及浮游动物群落调查. 结果表明,渭河干流营养盐浓度整体高于秦岭北麓支流,干流浊度远高于支流. 两次调查共鉴定出浮游动物种类数136种(原生动物65种,轮虫44种,枝角类15种,桡足类12种),其中2017年秋季渭河干流浮
潮府规[2021]14号各县、区人民政府(管委会),市府直属各单位,市各开发区、潮州新区管委会:现将《潮州市村镇工业集聚区升级改造实施意见(试行)》印发给你们,请认真贯彻执行。执行过程中遇到的问题,请径向市自然资源局反映。
期刊
党的十八大以来,中央高度重视国有企业党风廉政建设和反腐败工作,国有企业党风廉政建设和反腐败工作取得压倒性胜利并得到巩固。然而,也必须清醒看到,国有企业的党风廉政建设仍有薄弱环节,腐败问题仍然突出。以某电力国有企业风险预警监督系统为例,通过建立起全面覆盖、突出重点、行之有效的廉洁风险防控闭环工作流程,促进基层党组织的党风廉政建设和反腐败工作集约化和经常化,实现推进国有企业纪检监察数字化管理,为国有企
我国城市化的快速发展与经济增长方式的变化导致乡村地区发展失衡,使原有村镇聚落的空间布局、产业结构、土地利用方式等也随之发生转变,出现聚落空间无序化、破碎化、空心化等问题,部分聚落空间逐渐流失与消亡。党的十九大报告提出乡村振兴战略,其中,产业繁荣是促进村镇全面发展的首要任务,也是乡村振兴战略中最基础、关键的任务。因此,本文综述了城乡规划学、地理学关于乡村重构的理论及研究,提出产业变革型村镇的重构导向
选取1981—2020年海拉尔河流域及周边地区气象站点观测资料,结合水文数据,利用适用于植被稀疏下垫面的BTOP(Block-wise use of TOPMODEL)分布式水文模型估算区域蒸散发量,进而在不对称增温现象影响下,分析其对蒸散发的影响特征。结果表明:①流域内1981—2020年不对称增温现象显著,主要表现为因夜间温度升幅较大为主的昼夜不对称增温及地表温度升幅较大为主的地气不对称增温;
为解决河流生态基流保障目标制定缺乏参考标准的问题,提出了一种分区分类的河流生态基流占比(即生态基流占多年平均天然径流的百分比)阈值确定方法。同时,选择全国10个水资源一级区439个水文监测断面,通过对断面1956-2018年天然与实测流量资料的分析,综合考虑断面径流大小、年内变化是否剧烈、是否受控制性水利工程调控等,提出了中国(不包括港澳台地区)河流分区分类的生态基流占比阈值,包括上限值、下限值和
为探明不同水体类型浮游生物群落结构特征及其与水环境因子的关系,对天台县3种典型水体的环境因子和浮游生物进行了季节性调查和监测.调查结果表明,天台县3种水体共鉴定出浮游植物7门181种,以绿藻门为主(>50%),夏秋季的优势种主要为绿藻和硅藻,而冬春季则以硅藻和绿藻为主.梅尼小环藻(Cyclotella meneghiniana)、伪鱼腥藻(Pseudoanabaena sp.)、变异直链藻(Mel