基于深度学习的熊猫动作识别研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:whsvlsy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着动作识别技术在现实应用中需求的不断增加,该技术成为了计算机视觉领域的研究热点。通过对熊猫素材进行动作识别与分类,能够为熊猫文化创作者提供大量丰富、真实的熊猫资源,使得熊猫文化创作者能方便从丰富的资源库中提取所需图像。这可以极大地方便文化创作,提高熊猫文化创作的效率,同时可以降低创作成本,有十分重要的经济价值和文化价值。针对目前熊猫动作识别研究存在如下问题:(1)目前尚未建立标准的熊猫数据集;(2)因熊猫形态及背景等因素影响,熊猫动作样本集分类较难,使得熊猫的动作识别相对较难;(3)熊猫动作数据集样本数量相对较少,且存在数据不平衡导致的小类别样本识别率低的问题。(4)没有实际可应用熊猫动作识别算法的平台。针对上述问题,本文的研究内容分为以下三点。首先,本文提出了数据不平衡下的熊猫动作检测算法和基于Transformer的熊猫动作识别算法,两个算法分别针对图像和视频两种不同类型的数据集进行动作识别。其中数据不平衡下的熊猫动作检测算法通过训练集划分的方法对SSD模型加以改进,以提高在熊猫图像数据集小类别的识别率。而基于Transformer模型的熊猫动作识别算法,在Transformer模型的基础上,加入了光流算子来提取视频帧之间的动作特征,通过提取有效的光流特征来提高算法的识别率。同时,为了更准确地对算法进行评估,我们分别制作了熊猫图片和视频的数据集,并在数据集上对本文提出的两个算法和其基准算法进行了实验。实验表明,两个算法均在原有模型的识别效果上有所提升。最后实现了熊猫资源库平台。平台提供给用户大量的熊猫素材资源,并提供给用户上传熊猫相关图片和视频资源的渠道,实现熊猫资源的共享。平台同时使用本文提出的算法对熊猫素材进行分类,用户可精准检索数据库中不同分类的图片和视频素材。
其他文献
随着科学技术日新月异,市场竞争日益激烈,创新能力已成为衡量一个企业综合实力的重要指标。客户参与新产品开发和技术改善的重要性已经引起了各个行业的设计及生产企业的重视。不同的客户需求也会不同,越来越多的客户不仅重视产品本身的性能,更是关注与产品相关的服务和自我感受。为了能在市场上站立于不败之林,客户参与随着新产品的发展、设计和改进的进行,在企业中占的位置越来越重要。通过对相关文献的梳理,不同的学者对客
负电容场效应晶体管作为低功耗领域最具潜力的器件之一,自从被提出以来就被学者广泛研究。特别是在掺杂氧化铪基薄膜被证明有铁电性后,基于铁电氧化铪的负电容场效应晶体管因
近年来,随着网络和物流业的发展,网络购物在人们的日常生活中越来越常见,许多人都开始进行网络购物。因此,越来越多的电商购物平台开始进入人们的视野。对于企业而言,线上网络购物平台的开辟帮助企业开辟了一块新的市场,企业能在这个市场中寻求到更多的消费者需求。但是,线上平台的兴起对于传统的线下零售业造成了极大的冲击。由于网络购物平台与网络支付方式方式的发展,越来越多的人习惯了线上渠道购物的方便与快捷,一些人
图像生成是当下计算机视觉领域的一个重要分支,也是近年来的一大研究热点。另一方面,大熊猫文化是中国文化的符号,在国际文化中有着举足轻重的作用。在新兴的数字文娱产业中,大众创作者们对熊猫形象设计的门槛较高,难以对其憨萌可爱之处进行还原,因此熊猫文化在产业中比重较低。针对创作过程中的困难,本文依据文娱创作的需求与创作流程,基于现有的图像生成技术,提出了对通过线条绘画生成熊猫图像的方法,为创作者们提供直观
不同于其他类型的FPGA,反熔丝FPGA是通过编程其内部的反熔丝单元而实现整个芯片的配置。由于反熔丝单元具有一次可编程性,所以反熔丝FPGA是OTP器件。相比于其他类型FPGA,反熔丝FPGA的可靠性,安全性和抗干扰能力更为优秀,所以较多地运用于航空航天与军事领域。反熔丝FPGA测试过程中,需要外界提供多组高压信号,并满足特定的时序要求,因此其不适用于市场上通用的芯片测试平台。本文设计了一套针对于
随着互联网技术的日新月异、数字媒体的信息冲击和互联网商品交易平台的普及,消费者的日常生活状态受到数字化的影响越来越大,零售行业也在过去十年里发生了巨大的变化,移动渠道、社交媒体等的出现对现有的零售商业模式、零售组合和购物者行为带来了巨大的冲击。在新零售的趋势下,零售商巨头们不再是单一的追求线上流量或线下网点的布局规模,而是根据线上线下各自的特性来实现同步发展,形成复合竞争力,进而获取更多的市场份额
大脑是一个非常复杂的神经元网络系统,它由约1011个神经元构成,且每个神经元大约和其它104个神经元通过突触相连接.目前绝大多数研究认为神经元之间的突触连接保持不变,然而真实脑神经系统中,突触连接随时间不断发生变化,即神经突触具有可塑性.因此具有突触可塑性的神经元网络更接近真实的脑神经系统.另外,由于神经递质的随机释放与离子通道的随机开关等因素,神经元也处于噪声环境中.鉴于此,本文首先通过构建具有
随着零售行业的线上销售越来越普及,消费者享受着线上模式带来的诸多便利,与此同时,无法在线上购物前真实的感知商品,使消费者可能面临额外的退货费用,这也将导致零售商承担大量的退货成本。B2C模式下,零售商为刺激消费往往会提供宽松的退货政策,加之退货的便利性使得电子商务市场存在较高的退货率,而这些退货中绝大多数都是整件退回商品。实际生活中商品以单件商品和组合商品两种形式存在,但目前的退货很少考虑商品的存
随着多媒体服务的发展,视频和图像已经成为了人们生活中不可或缺的一部分。然而,由于其庞大的数据量,视频和图像信息的传输会消耗大量功耗,缩短移动设备电池的寿命。为了解决这个问题,一般在图像传输之前使用图像压缩系统对数据进行压缩,而离散余弦变换(DCT)通常作为这个系统的核心。但是,DCT是运算密集型的运算,电路直接实现会占用大量的硬件资源,引入较大的功耗,影响整个系统的稳定性。为了简化DCT运算,本文
等值线图又称等量线图,是一种应用广泛的图形。它是以相等数值点的连线表示连续分布且逐渐变化的数量特征,是地质资源信息系统中最基础和常见的数据表示形式。它将数据与图像