基于高级语义信息挖掘的跨模态应用研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:iq106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字、网络、视觉传播技术的发展,多媒体数据也呈现日益增长的趋势。这些丰富的数据资源为跨模态数据的信息挖掘、理解和分析和等相关研究带来了许多新的挑战。比如,信息检索从过去的单媒体迈向了跨媒体的新时代。此外,多样化的数据和用户多元的需求也催生了很多新兴的跨模态任务,比如视觉问答,模型需要根据一张图像和一个问题,预测出相应的答案;再比如文本到图像生成,模型需要根据一段文本描述来生成高质量的图像。不论是传统的跨模态检索任务,还是新兴的跨模态信息交互和生成任务,从本质上来看,都是不同模态信息的映射与转化。而对不同模态数据高级语义的深入理解,是实现众多跨模态应用的一个先决条件。然而,不同模态数据表现形式不一致,存在于不同的特征空间(称为异构鸿沟)的特点,为跨模态信息的有效匹配、理解和转化带来了很多挑战。因此,有效挖掘不同模态数据的高级语义信息是诸多跨模态应用中亟待解决的重要问题。
  针对上述挑战,本文从高级语义信息挖掘的角度出发,探索和实现不同模态信息的高级语义信息的表达,理解与转化。具体来说,本文以跨模态检索(图像(=)文本)、视觉问答(图像+文本→文本)、以及文本到图像生成(文本→图像)这三个典型的跨模态应用入手,研究如何通过挖掘不同模态数据的高级语义信息,来有效地实现跨模态应用中的匹配、交互和生成。
  具体来说,本文的主要贡献可以总结为如下几点:
  1.提出了基于语义特征解耦的跨模态检索模型,通过先将文本和图像的语义特征从冗余的上下文和模态等信息中分离出来,然后仅利用两者的“高级语义特征"来计算相似度,实现了跨模态数据语义信息的准确匹配。实验结果表明该模型可以过滤掉冗余的上下文和模态信息,学习到高质量的文本和图像的语义特征表达,极大地提高了跨模态检索的准确率。该模型在四个公共基准数据集都实现了目前最好的跨模态检索结果,说明了其通用性和优越性。
  2.提出了基于显式注意力监督的视觉问答模型,通过增加显式的注意力监督,视觉问答模型学习到了更准确的注意力权重,并加强了对跨模态交互信息语义的理解,最终提高了其预测性能。实验结果表明了显式的注意力监督在视觉问答任务中的可行性和优越性。
  3.提出了基于语义一致性建模的文本到图像生成模型,通过设计和应用“文本→图像→文本”再描述的生成框架,保证了生成的图像能够重新被描述成输入的文本信息,提供了一种显式的跨模态语义一致性的监督。实验结果证明该模型成功实现了不同模态数据的高级语义的有效转化,说明了其在保证生成图像和输入文本之间语义一致性的可行性和有效性。此外,该方法超过了现有的生成方法,建立了新的基准线。
  4.提出了基于多层语义信息融合的文本到图像生成模型,通过先将输入文本编码为多个带有不同视觉信息的文本特征向量,然后通过融合这些特征向量中的语义信息去生成图像,保证了生成过程中视觉信息的完整性。实验结果表明该模型不仅保证了语义的高度一致性和视觉逼真度,而且还保证了生成图像的合理性。两个公共基准数据集上的实验结果均表明该模型优于具有代表性的基准方法。
其他文献
将虚拟物体自然的融合到真实照片中是计算机图形学的重要研究方向之一,传统方法通常需要用户手动标注照片中的场景几何与光源位置,在恢复出3D场景和光源的情况下进行重新渲染。巨大的交互量与重新渲染的计算量限制了该技术在实时任务下的应用。
  本文结合深度学习技术与预计算技术,以降低交互量和提升融合速度为目标,提出了一种全自动虚实景融合算法,在开阔平面场景下,仅需单张照片,便可在特定视点下将合成物体放到平面上,整体流程无需任何手动标注与重新渲染过程,并可在30毫秒内完成融合。
  本文算法以3阶球谐函数
随着近些年来人工智能的发展,智能移动机器人作为人工智能算法落地的载体也得到了人们的广泛关注,其作为一种复杂的机电设备,需要多种模块、算法和技术的有机融合才能真正发挥其替代劳动力的作用,然而现有智能移动机器人开发平台的局限性使得开发一个安全、实时、鲁棒的智能移动机器人应用存在着诸多困难。
  一方面,对于机器人硬件平台,一般由计算平台、控制执行平台和传感器平台组成,其中计算平台作为控制命令的分发单元以及传感数据的处理单元,虽然目前的通用处理器在性能方面有很大的提升,但单个性能强大的处理器仍然难以满足智
视觉定位是计算机视觉领域中的重要研究课题,它在自动驾驶、移动机器人和增强现实等领域中有着非常广泛的应用。近年来,随着这些领域的快速发展,关于视觉定位的研究取得很多突破,但针对大规模场景的视觉定位还面临着效率和鲁棒性两方面的挑战。一方面,随着场景规模变大,算法的计算时间和内存消耗将会变得无法接受,尤其在计算性能受限的移动设备上表现的更为严重。另一方面,在大规模场景中不可避免地存在重复结构和重复纹理的问题,这严重地降低了局部特征的判别性从而影响视觉定位的鲁棒性。因此,在大规模场景中实现高效和鲁棒的视觉定位是一
近些年来,互联网应用的内容传播与表现形式越来越多样化,面对多模态信息融合载体的推荐需求,需要机器学习模型从多种维度、综合利用多种技术对多模态内容进行足够细致的分析理解。特征组合是点击率预估任务中的重要问题,基于深度神经网络的点击率预估模型利用显式的特征组合结构,同时捕捉高阶和低阶的特征组合,从而取得了优异的效果。但是这些模型只关注于对原始类别特征进行组合,没有同时考虑组合特征表达的完整性以及组合特征的重要度。认为在多模态特征的推荐场景下,完整的特征表达和有效的特征利用对模型的影响更加明显。
  首先
3D多物体追踪是计算机视觉中重要的问题,并且在许多重要场景比如无人驾驶、机器人等中得到了广泛的应用,因此其受到了极大的关注。然而目前大部分的工作通过提出越来越复杂的神经网络不断提高追踪的精度,但却忽略了系统的计算复杂度使得这些算法很难在实时性的系统比如自动驾驶上运用。因此,本文基于点云的数据特征提出一个简单且有效的实时追踪算法,能够基于点云的检测特点自适应调整,根据物体的类型自适应调整模型参数,最大程度上减少检测的噪声。本文采用的为基于点云的物体检测的追踪框架,使用一个现成的3D物体检测算法生成物体检测框
随着人工智能及信息技术的高速发展,服务机器人的智能化水平飞速提高,应用场景更加丰富,已经普遍进入并开始改变我们的生活。人们期望其可以成为能够快速准确理解用户请求、不断增长和扩展技能、能够应付复杂环境和复杂任务的智能助理。当前对于提高服务机器人的智能化水平,主要有两方面实践,一种是提高单个机器人的技术水平,常见于单一功能和应用场景的机器人中,如教学机器人、扫地机器人等,这种方式的问题是由于知识闭塞而带来的重复学习;另一种是通过统一终端来控制其他设备,例如智能家居中的智能音箱,这种方式可以通过人机交互实现多个
近年来,随着中国对地震预警工作的投入不断增加,地震监测网络不断完善,地震监测台站所记录的数据爆炸式增长。地震数据的飞速增加导致人工处理与分析工作越来越困难。因此,对自动化处理分析方法的需求越来越迫切。随着深度学习方法的快速发展,在地震相关研究中应用深度学习逐渐成为一种发展趋势。地震事件检测、震相到时拾取(这里将二者统称为地震事件到时识别)与震级的快速估算是在地震研究中非常重要和典型的三个任务。利用深度学习方法去解决这三个问题,会提高对地震数据处理与分析的效率,从而能大幅度节省人力成本和时间成本。
 
中国制造业近年来蓬勃发展,其中离散制造型企业的数量也在快速增加。离散制造因其高度复杂的加工过程给生产管理带来了许多问题,例如生产周期难确定、物料需求多变等。这些问题需要用合理有效的生产计划来解决。但目前企业计划排程的实施效果并不理想:企业资源计划管理ERP(Enterprise ResourcePlanning)中基于无限产能的计划排程模型,与实际生产情况差距大,计划执行困难;而考虑更为全面、基于多条件约束的高级计划排程APS(Advanced Planning and Scheduling)也存在着工艺
众所周知,在很多自然语言处理的任务中,知识库所起到的作用是不可或缺的,比如问答系统,自然语言推理等等。而实体链接,也就是在知识库中找到一段文本所包含的实体,很多时候是作为这些自然语言处理任务的上游基础任务存在的,因此实体链接可以说是一项非常重要的工作。
  自实体链接任务发展以来,标准实体链接任务的链接目标都是类似Wikipedia这样的大型百科知识库,这类实体链接方法的准确率已经达到了很高的水平。但是这在很大程度上依赖于这类知识库中已被挖掘的大量标注信息和统计数据。而这样的信息在各类领域知识库中很
近些年来,随着互联网技术的快速发展和移动终端用户数的飞速增长,网络媒体和社交平台等舆论场成为网络舆情的展示平台。对媒体和社交平台的数据进行挖掘对企业和机构有着重要的战略意义。然而,如今互联网上的数据有着体量大、种类多、产生速度快的特点,这些特点使得舆论场数据所包含的信息密度下降。低信息密度的数据会导致决策的正确性大幅度降,所以对舆论场数据的信息密度,也就是本文提到的舆论场数据质量,进行核查、度量、预警等监控操作是数据战略中必不可少的一部分。
  本文的目标是设计支持实时预警的可信度高的舆论场数据质量