基于Siamese Network和GMM的半监督小样本分类方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:honghongjiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,机器学习和深度学习技术取得了突破性的进展。以卷积神经网络为基础的深度学习技术在图像领域成果显著。但是同时也表现出了一些问题:需要大量的有标签的数据集作为支撑,训练周期长,解释性差等。在实际场景中,大量的有标签数据集并不是总是存在的,而少量的数据难以用来训练一个复杂的神经网络。与此同时,人类可以从少量的信息中快速学习。目前的机器学习算法的表现和人类之间的差距激起了人们对小样本学习的兴趣。怎样从少量样本训练出能够泛化的模型成为了机器学习领域中的一个热点问题。目前小样本学习的领域的研究成果主要采用先验知识(prior knowledge)来弥补训练数据不足的带来的影响,比如用其它相关数据集训练模型然后利用少量的样本精调模型,以及使用半监督学习的方法,从无标签的数据集中来提取信息帮助训练模型。本文提出了结合Siamese network和高斯混合模型的半监督学习算法。Siamese network在训练样本数量较少的情况下也能有很好的表现。Siamese Network每次输入两个样本点,判断输入的样本是否相似。这种输入特性使得样本点可以两两通过组合的方式,Siamese Network训练的样本大大扩充。高斯混合模型是一种广泛应用的无监督分类模型,但是需要通过手工的方法来提取图片数据中的特征。手工提取的特征往往需要特定领域知识,局限性很大。而这个问题可以通过Siamese Network有效缓解,Siamese Network提取特征不依赖特定领域知识,只依赖卷积神经网络。结合两者的优势,通过Siamese Network提取有区分度的特征,然后用高斯混合模型来分类。模型可以使用少量的有标签数据集和大量的无标签数据集进行训练,并且取得了很好的效果。实验表明,基于Siamese Network和高斯混合模型的架构能够很好的应用于半监督的小样本图像分类任务。
其他文献
近年来兴起的网络功能虚拟化(NFV)技术,将传统物理硬件软件化为虚拟网络功能(VNF),运行于x86通用服务器上的虚拟机(VM)或容器(Container)。NFV技术成功地摆脱传统物理硬件的专用性和安装不便,提供了极高的敏捷性和弹性,提高资源利用率的同时降低了资本支出(CAPEX)和运营成本(OPEX),为网络服务提供商(ISP)展现出了巨大的潜力。在NFV环境下,云租户的需求被抽象为服务功能链
近些年,工业界和学术界为了避免内核网络协议栈在网络IO方面的局限性,在用户空间设计实现了高性能的网络协议栈和数据包处理框架。在这些用户空间网络协议栈和快速数据包处理解决方案中,矢量包处理器(Vector Packet Processor)是一个典型的高效数据处理框架,它集成了高效的绕过内核技术以实现高性能的I/O;同时也通过向后兼容的通信库向应用层提供基于共享内存的核间通信方式。但是,当在多核系统
黑果腺肋花楸是兼食用价值及生态价值于一体的珍贵新型食品,其自身质量的优劣直接影响了食品的安全性及深加工产物的营养价值,且其鲜果储藏期短,运输等过程也会造成营养物质的损失。目前国内对黑果腺肋花楸的研究不够系统,阻碍了质量评价体系的建立和新产品的研究。因此,该文通过对黑果腺肋花楸中的主要化学成分、生物活性以及质量评价方法的研究现状进行综述,为黑果腺肋花楸的进一步研究和利用提供理论依据。
大数据时代,网络上的海量信息为人们提供便利,与此同时这种共享性和开放性也使得攻击者有机可乘,互联网面临的安全问题日益严重。网络攻击行为主要体现在Web应用方面。众多Web攻击中,僵尸网络、SQL注入攻击和钓鱼网站最为常见,造成的危害也最强,因此本文主要研究针对这三种威胁的检测算法。本文优化了基于MLP的僵尸网络检测算法,对主机的HTTP流量进一步分析并提取特征,使模型的性能提升了10%;提出了基于
近年来,随着信息技术的快速发展,人们对于生活质量的追求不断提高,各类垂直行业的互联应用也不断涌现,如自动驾驶、智能家居、智慧医疗等。这些新兴应用在存储、计算和传输方面的需求各异,这对当前传统的计算与网络架构提出了巨大挑战。因此,如何设计并利用存储、计算、传输融合的分散式计算架构以适应各垂直行业数字化与智能化的发展,成为了学术界研究的热点。虽然很多研究人员已经针对上述问题开展了一定的研究工作,但目前
信息中心网络被认为是有力的下一代网络架构候选。信息中心网络以内容为中心的设计解决了不少传统网络架构中的问题,能在一定程度上满足未来网络对于高效性、移动性和安全性等方面的需求。在众多信息中心网络的具体实现中,命名数据网络是具有代表性的、持续得到学术界支持的一种。然而,在诸多优点之外,一些新的安全问题也同时出现,兴趣泛洪攻击便是其中之一。这是命名数据网络中特有的一种拒绝服务攻击,易于部署实现且危害较大
[目的]通过调查中医药院校五届本科生就业观——以山东中医药大学为例,为培养中医药本科生树立正确就业观提供对策及方法。[方法]2020年9-11月选取山东中医药大学2016-2020级本科生20个班900人作为调查对象。通过大量查阅本科生、毕业生就业观相关文献资料,采用问卷调查、数据统计分析的方法,了解疫情防控形势下中医药院校本科生就业观,共发放调查问卷900份,回收有效调查问卷854份,有效回收率
月亮狗住在天上。白天,它呼呼大睡,你看不见它。晚上,它就会出来寻找食物了。星星跟月亮狗不一样。星星们总是不分昼夜地在天空中玩耍。白天看不见它们,是因为太阳妈妈用光的怀抱,把它们隐藏起来了。一到晚上,太阳妈妈累了,要睡觉了,贪玩的星星们就会挣脱妈妈的怀抱,在夜空中到
期刊
与传统刚体机器人相比,软体机器人因内秉的柔顺性使其更适应于非结构化工作环境。软体驱动器作为动力源,是软体机器人的关键组成部分。与其他软体驱动器相比,介电弹性体驱动器具有结构简单、变形大、响应迅速等优势。但几何形状、材料特性、外界电场的耦合作用使得介电弹性体驱动器系统难以准确建模,设计缺乏理论框架。针对这一难题,本文提出了驱动器一体化建模方法,对平面型介电弹性体最小能量结构(DEMES)展开一体化设
随着大数据、云计算、物联网等技术产业的快速发展,数据流量爆炸式增长,数据的存储压力也越来越大。而图像是信息的主要载体,因此设计高效的图像压缩算法减小图像的压缩存储、提高压缩图像质量变得尤为重要。在传统图像压缩算法如JPEG、JPEG2000、BPG不断发展并广泛应用的同时,硬件设备的发展极大提高了计算机的处理速度和存储能力,使得基于神经网络的图像压缩算法研究得以发展、落地。在神经网络的发展过程中,