基于Triplet Network的文本深度度量学习算法研究

来源 :深圳大学 | 被引量 : 0次 | 上传用户:judy5752
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
度量学习是文本分类算法的主要研究问题之一。通过学习一个距离度量函数,将样本间距离转化为相似度,对原始数据分布进行重构,将原始数据映射到一个容易划分的拓扑空间。使两个具有同样标签的样本在新的编码空间内距离更近,两个具有不同标签的样本在新的编码空间内距离更远,从而具有更优的分类性能。近年来,不同学者结合深度学习方法的研究发现深度度量学习网络的性能显著优于传统度量学习方法,其核心是构造用于度量学习的深度神经网络及loss损失函数学习高维数据的内在结构,提升分类效果。本文从三方面对Triplet Network深度度量学习网络进行改进:1)提出了一种基于LSTM的Triplet Network度量学习方法(LSTM Triplet)。该方法使用长短期记忆网络取代传统的卷积神经网络进行建模,解决了上下文依赖的问题,针对维度高、序列化的文本类型数据可以取得更好的实验效果;2)提出了一种基于孤立森林的Triplet Network深度度量学习算法(Iso Triplet Network)。该方法优化了三元组选锚的方式,克服了传统Triplet Network把任意点作为锚点构建三元组的弊端,有效的减少异常样本或是离群样本对模型的影响;3)优化了Triplet Network中的Triplet Loss损失函数。解决了传统Triplet Loss只考虑正负样本对之间的相对距离,而并没有考虑正样本对之间的绝对距离的弊端。针对传统Triplet Loss存在的问题进行优化。本文的实验结果证明,以上的三种不同的方法使得改进后的Triplet Network度量学习网络能够得到一个对数据更有表征能力的非线性度量空间,比传统方法有更好的分类效果。
其他文献
现金是公司重要的战略资源,被称为企业的“血液”,关系到公司的健康运营与持续发展,且现金资产极易被侵占与转移,企业代理冲突问题会导致控股股东或管理层为满足自身利益对现金资源进行滥用和侵占,损害投资者利益,致使现金资产发生折价;信息不对称问题导致投资者无法对企业持有的现金资产给予公平合理的定价,致使现金资产发生折价。证券分析师作为资本市场的信息中介,对改善信息环境有重要作用,是公司外部治理机制的有效组
文字作为信息交流的媒介,在人类文明社会具有非常重要的意义。自然场景中,文字无处不在,场景文字识别作为计算机视觉中的一项基本问题,在许多任务上体现出巨大价值。例如,可用于拍照翻译、账单票据快速识别、车牌识别、无人超市等实际问题中。相比文档识别,场景文字在光照,拍照角度,复杂背景,遮挡甚至存在大量不规则文字等因素影响下,识别存在更大的挑战。随着深度学习在计算机视觉多个领域取得成功,基于深度学习的方法也
为了解决传统审计报告信息含量不足的问题,新审计准则要求在审计报告中增加披露关键审计事项,以提高审计报告的信息含量和审计工作透明度。近年来,关键审计事项作为会计领域的热门话题受到学术界的广泛关注。审计报告中关键审计事项的产生包括确定和披露两个过程。关键审计事项的确定主要取决于公司特征,而关键审计事项的披露则涉及审计师与客户的沟通、审计师责任和审计师独立性等因素。关键审计事项的数量、类型以及文本篇幅都
2017年5月证监会出台减持新规9号文,旨在规范大股东、董监高、机构投资者的减持行为,以促进资本市场的健康发展。大多数市场人士认为,股票流动性决定了一个股票市场是否能够正常运行,Amihud和Mendelson(1988)甚至称“流动性就是市场的一切”。但我们发现减持新规的出台将导致股票流动性的降低,这似乎违背了主流思想,无法达到其促进资本市场健康发展的初衷。这一发现为本文提供了研究契机,我们将借
近年来柔性电子已经逐渐进入公众视野并在生产与生活中发挥着重要作用,这得益于众多关于柔性导电材料的探究。然而在电子污染日趋严重的背景下,具有瞬时性的柔性电子则发挥了更安全环保的作用,它可以在完成特定功能和任务后可以简易无污染销毁,又称为瞬态电子。瞬态电子是解决电子污染问题的良好方法,但在目前研究中的瞬态电子也存在着销毁耗时间长,不易回收,资源浪费等缺点。镓基液态金属是一种在室温下处于液态的金属材料,
数字化和理解我们的物理世界是计算机图形学和计算机视觉的重要目标。在三维计算机动画领域,角色动画一直是学术界与工业界感兴趣的研究课题。随着动作捕获技术的发展,人们可以借助动作捕获系统记录人体的真实运动信息,并把动作过程复制到一个虚拟角色上,使得最终呈现的人物动画更具有真实感。但是当动作需求发生改变时就要重新捕获新的人物动作,这样做在时间与经济方面都会产生巨大的成本。因此为了降低成本需要利用动作编辑与
随着在线学习的兴起,泛知识平台如微信读书、喜马拉雅、得到、知乎等可以在线学习、看书、听课的平台也随之兴起。互联网用户对在线知识平台的选择度越来越大,在线知识平台希望可以增加更多的用户留存和主动使用。因此,在线知识平台相继设计了很多游戏化元素来刺激用户持续学习和使用平台。例如微信读书设计的读书小队,比较好的留住了用户。所以本文希望探究游戏化设计和用户期望满足以及用户留存意愿之间有什么样的相互关系。本
投资是公司理财的核心内容,投资活动的成败直接关系到公司的稳定发展乃至生存。近几年来,我国上市公司投资效率普遍不高,部分公司出现了过度投资现象。过度投资会导致公司经营效率下降,降低公司价值。由此,如何有效抑制过度投资行为,对于保障公司健康发展、提升公司价值至关重要。理论上,股票回购作为发放现金股利的替代方式,减少了公司自由现金流,能够抑制公司过度投资行为。我国上市公司股票回购能否有效抑制过度投资,管
由于我国资本市场起步晚、发展不完善,股价崩盘现象时常发生,它扰乱了资本市场的运行规律,影响了投资者对资本市场的信心,甚至可能会对实体经济的稳健发展造成一定影响。在这一背景下,关于股价崩盘风险影响因素方面的研究越来越受到国内学者的关注。内部控制作为现代公司治理体系中的一种重要机制,目前已被投资者以及资本市场广泛认可,上市公司披露的内部控制缺陷信息是评价内部控制质量的重要信息之一,近年来越来越受到我国
图片马赛克作为一种艺术形式,已经在如广告、家具装饰、娱乐等诸多领域被广泛应用。传统意义上的马赛克合成方法通常使用纯色色块或具有一定纹理特征的图块作为算法输入,而图片马赛克则是使用由数据集检索所得的图片集合合成马赛克结果。由于图片马赛克作品中存在目标图像主题内容与合成图块视觉内容两种图像信息,因此图片马赛克合成结果的优劣主要集中于两个方面,一方面是整体上对目标图片主题内容的表达,另一方面是局部尺度上