基于深度神经网络的文本分类研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:missile60
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理中的一项基本任务,被广泛用于垃圾邮件检测,情感分析和主题分类等各种应用中。最近,神经网络在自然语言处理中取得了显著成果。本文旨在从三个不同的角度研究基于神经网络的文本分类任务,包括新颖的方法或体系结构。本文的主要内容如下:1.对于文本分类,传统的局部特征驱动模型通过深度堆叠或混合模型来建模长期依赖性。本文提出了一种新颖的Encoder1-Encoder2体系结构,其中全局信息被集成进局部特征提取的过程中。具体来说,Encoder1充当全局信息提供者,而Encoder2充当局部特征提取器,其结果直接用于分类。同时,本文还设计了两种模式进行交互。由于具有了全局视野,本文的方法能够更好地学习到该实例特定的局部特征,从而避免了复杂的上层操作。在八个基准数据集上进行的实验表明,本文提出的体系结构大幅度提高了局部特征驱动模型的效果,并且在完全监督的环境下优于以前的最佳模型。2.神经网络是从数据驱动的模型,已在各种NLP任务中占据了主导地位。目前,不少学者通过集成符号知识来提高神经网络的性能,该方法引起了人们的广泛关注。与之前的方法不同,本文从知识驱动的角度研究了这两种强大范式的组合。本文提出了神经规则引擎(NRE),它可以从逻辑规则中显式学习知识,然后通过神经网络对其进行隐式泛化。NRE通过神经模块网络实现,其中每个模块代表逻辑规则的动作,并配有神经规则解析器将规则解析成特定的模块以及模块中的参数。实验表明,相对于传统的规则系统,NRE可以显著地提高召回率,从而大大提高逻辑规则的泛化能力,同时将精度保持在较高水平。3.丢弃(Dropout)通过在训练过程中从神经网络中随机丢弃单元来缓解过拟合。受此启发,本文提出了一种新颖的与全局信息集成的丢弃方法,GI-Dropout,以提高神经文本分类的效果。传统的丢弃方法是根据相同的概率随机丢弃单元,而本文基于数据集的全局信息使用显式指令来指导丢弃的过程。使用GI-Dropout,模型可以更加关注不明显的特征或模式。实验通过七项文本分类任务(包括情感分析和主题分类)证明,基于全局信息的丢弃可以提高神经网络的效果。
其他文献
多足爬壁机器人作为移动机器人的一个分支,以其独特的运动方式和不同环境的适应性,一直以来都受到国内外研究学者的关注。近些年多足爬壁机器人依靠其优秀的壁面适应性和运动灵活性从军事运用领域逐渐转向工业运用领域。但是其复杂的腿部结构和腿部运动所导致的控制难度成为广泛应用的一大障碍。为了满足一些特殊工业领域对多足爬壁机器人运行的水平姿态要求,本文设计了一种拥有三关节回转伸缩机械腿的新型爬壁机器人,可以保持运
随着互联网和信息技术的飞速发展,人类社会正步入大数据时代。海量的信息通过互联网发布和传播,其中非结构化的文本数据是互联网信息的重要载体和呈现形式。因此,高效、精准地管理和挖掘文本信息,并快速提取有价值、感兴趣的高质量信息具有重要意义。文本分类是管理海量文本信息的一种有效方法,能够使分类后的信息结构更清晰、内容更聚合。因此,文本分类技术已成为机器学习和自然语言处理领域的研究热点和难点之一。且主题模型
企业建立虚拟社区的目的在于通过用户间互动交流和问题解答来节约企业的产品服务成本,获取消费者的产品创意和共创知识资源,从而提高企业的创新能力,为企业带来价值。企业虚
随着社会的发展,企业间的并购、投资或者采购等商业往来越来越频繁。对于买方来说,这些商业往来存在着各种各样的风险。比如:签署合作合同以后,主要的员工、供应商以及客户是否会留下;目标企业过去的财务报表是否准确。所以,买方必须通过一定的方法来弥补买卖双方在信息上的不对称,从而进行风险管理。尽职调查,指的是买方对目标企业的资产负债情况、经营和财务状况、法律关系以及目标企业所面临的机会和潜在的风险进行的一系
近年来,海量数据产生,算法发展和计算速度提升推动了人工智能领域的发展,使许多任务试图用人工智能的方法解决。本论文尝试使用深度学习的方法解决心电数据去噪音任务,该任务的目的是将噪音心电数据转换为无噪音心电数据。深度学习擅长处理监督学习任务,监督学习需要配对的数据学习源域和目标域的映射关系,但是心电数据去噪音任务的难点在于我们无法获取到配对的噪音心电数据和无噪音心电数据,只能收集到无噪音心电数据集。因
QXJG集团是东北部地区的一家老牌建筑企业,经过多年来的发展,企业不断转型升级,其管理逐步走向规范化、精细化,但是随着建筑行业竞争加剧,高学历的人员招聘难,高层次人员流失严重的问题已经凸显。结合建筑行业的发展现状来看,知识型员工在企业发展过程中所起到作用愈发明显。随着集团大量的引进知识型员工,企业在绩效管理上还显得相对滞后,不能很好的配合组织的人才引进和发展的需要。为此,QXJG集团希望通过绩效改
电离层Es(Sporadic E)是在电离层的E层偶发的电子密度相对于背景环境增强的一块区域。由于Es临界频率有时可以和F层临界频率相比拟,甚至比F层临界频率大的多,因此电离层Es的出现对于电离层电波传播具有重要的影响。同时电离层Es产生的物理机制还有待进一步的研究和完善,因此对于电离层Es的研究也具有重要的科学意义。而Es在频高图中的出现,特别是二跳回波,对F层相关参数的度量和反演具有很大的影响
党的十九大以来,为适应国内经济形势的发展和国际经济环境的挑战,我国税收征管体制改革不断加快,国地税机构合并、减税降费等一些重要措施陆续出台。在税收征管体制的深刻变革中,税务系统的组织结构、征管方式、工作内容等都发生了较大变化。基层税务干部作为税收征管第一线的税务人员,正面临着来自工作、家庭、社会等各方面的压力。积极研究、认识、缓解、解决这些基层税务干部的工作、生活、身体及心理压力,对维护社会稳定、
随着智能产品及互联网的迅速发展,网络中充斥着大量良莠不齐的数据,而在这些数据中,视频占据了主要部分,若能够利用智能算法对视频数据进行自动识别,尤其是识别视频中的人类行为,就可以针对视频内容进行有效的监控,进而对视频中涉及的危险行为进行识别并预警或过滤。另一方面,在对视频内容进行监控时,只能基于已经发生的行为进行识别与分类,无法推断视频中人类的意图,而分析人类意图对于行为的识别与预测都具有至关重要的
随着全球数据总量的快速增长,大数据的时代已经悄然来临,面对如此海量的数据,其要解决的关键问题就是如何存储数据。在这之前,数据存储方式一直以传统的集中式数据存储方式为主,但其在存储海量数据的场景下,由于可扩展性较差、成本昂贵等诸多弊端,显然这种集中式的数据存储方式已然不能满足存储需求。为了解决集中式的数据存储方式面临的问题,各种分布式存储系统应运而生,其中,如何提高云存储系统的QoS性能已经成为一个