【摘 要】
:
模态指代事物发生的方式或是事物被体验的方式[1],多模态是两个或者两个以上模态各种形式的组合,当一个数据集或者研究中包含多个模态的时候,该研究即称为多模学习。在单模态研究的时代,学者们借助不同任务所提供的单模态信息进行模型构建,如推荐领域过去的研究使用用户对物品的打分构建推荐模型进行推荐,但随着多模态学习的兴起,推荐领域物品图片信息和用户评论信息的加入使得推荐效果取得的重大突破。多模态学习逐渐成为
论文部分内容阅读
模态指代事物发生的方式或是事物被体验的方式[1],多模态是两个或者两个以上模态各种形式的组合,当一个数据集或者研究中包含多个模态的时候,该研究即称为多模学习。在单模态研究的时代,学者们借助不同任务所提供的单模态信息进行模型构建,如推荐领域过去的研究使用用户对物品的打分构建推荐模型进行推荐,但随着多模态学习的兴起,推荐领域物品图片信息和用户评论信息的加入使得推荐效果取得的重大突破。多模态学习逐渐成为研究的热点,其中基于图像和用户访问序列的多模态城市功能区分类问题作为多模态学习研究中的一个子问题,通过将用户对区域的访问时序数据和遥感图像数据相融合获取更精确的区域功能分类,将为现代化城市的治理和精化提供宝贵的参考数据。本论文主要做了以下几方面的研究工作:(1)对多模态表示问题进行研究,针对提供的大规模遥感图像使用加深后的深度SE-Res Net进行特征表示提取;针对用户访问时序数据分别使用Attention神经网络、LSTM和GRU进行特征表示的提取。(2)对多模态融合问题进行研究,对不同方法提取的用户访问特征与图像特征的融合采取不同的应对措施,使用拼接的方法融合由At-tention神经网络提取的用户访问特征和深度SE-Res Net提取的图像特征;使用外积的方式融合由LSTM和GRU提取的用户访问特征和深度SE-Res Net提取的图像特征。(3)采用傅里叶近似多核支持向量机的方法来进行分类预测,并将此模型与传统和前沿分类方法进行对比分析。(4)实验验证了本文提出的模型的分类性能,基于该模型设计实现了城市功能分类系统原型,该系统主要包括用户注册登录、文件上传、分类查询和历史查询等功能。本文首先介绍了多模态学习的研究背景和意义,分析了多模态学习领域现有研究的发展,指出其中最受关注的多模态表示和融合研究存在的问题,从实际的城市区域功能分类问题出发提出本文的技术路线。然后从模型计算、结构和训练方式等方面对本文提出的模型进行研究和设计并在公开数据集上进行实验验证模型的分类特性。最后设计实现了基于图像和用户访问记录的分类模型原型,并图像化展示了所设计的系统。
其他文献
医学超声成像因其成本低廉、安全可靠及实时无创等优点被广泛应用于肝脏组织的临床检测中。由肝损伤引起的肝纤维化是一种全球性的肝脏疾病,严重影响了人们的身体健康和生命安全。因此,及早地检测和干预肝纤维化具有重要的临床意义。散射体密度与肝纤维化进展有直接关系。现有的散射体密度定量超声肝纤维检测算法大都基于统计分布与参数分析,存在检测不准确和鲁棒性差的问题。因此本文提出了一种基于定量超声的统计分析与参数成像
边缘计算技术在数据隐私保护领域内有十分重要的应用。边缘计算可以通过将服务部署在边缘节点上的方式,对云中心等服务调用者隐藏原始数据,仅返回处理后的统计数据和结果数据,从而使数据中的敏感信息得到了保护。然而当任务涉及到多个边缘节点的上的原始任务数据时,任务便成为边缘计算场景下的多数据源任务。多数据源任务在执行过程中,异构性因素使得个别子任务执行时间过长,造成整个任务执行时间过长。任务卸载是解决上述问题
Al基非晶合金的比强度高、韧性好、耐蚀性优异,因此具有广阔的应用前景。然而目前Al基非晶合金棒状试样的最大直径仅能达到2.5 mm,极大限制了该类材料的工程应用。深刻认识制约Al基非晶合金玻璃形成能力的因素、寻找更好玻璃形成能力的Al基非晶合金就成为非晶合金领域极其重要的问题。为此,本文首先总结分析了现有Al基非晶合金的成分设计理论,在此基础上提出了一种新的预测Al基非晶合金最佳成分的方法;接着开
本文为中国作家陈苍《地下三尺》第一章节的中译英翻译及该翻译分析。笔者翻译特定文化项目时将异化和归化理论应用于实践并提出熟悉性原则,作为一种解决不均衡和找到两者之间平衡的方法。结合中国文化的“走出去”和翻译的全球化趋势,进行了翻译分析。希望通过上述方法的适应,中国文化能够在西方得到进一步的弘扬。
随着大数据、物联网等平台的兴起,人们对于信息存储分析的需求井喷式增长,研发低功耗、低成本、高密度、高速的存储器迫在眉睫。阻变存储器因具有器件结构简单,存储读取速度快,尺寸小,功耗低,可三维集成等优势,是新型存储器的代表之一。本论文采用Ta2O5基阻变存储器进行研究。在传统的导电机制中,人们更多的关注点在Ta/Ta2O5界面。Ta/Ta2O5界面处因电激励产生的氧空位是导电细丝的主要组成。但在本论文
随着互联网和自媒体的发展,在线新闻的规模与传播范围得到了极大的扩展。面对海量的在线新闻文本,如何根据其描述的内容对其进行划分和聚集,以实现新闻事件识别,是一个值得研究的问题。这一技术不仅有利于各种组织机构及时、准确地发现新闻事件,而且是把握热点舆情、分析开源情报等自然语言处理任务的基础步骤。从技术层面看,部分现有的新闻事件识别算法仅考虑了语料的统计特征,却忽略了实体信息、同义词、一词多义等语义知识
目的探索酶催化合成方法,制备兼具抗菌和再矿化作用的银掺杂的磷酸钙材料新体系,并研究其在早期龋的防治中的效果及存在的作用机制,为安全有效的多功能磷酸钙类新型生物材料的构建及其在早期龋防治方面的进一步应用研究提供新方向和实验基础。方法以磷酸钙为主体材料,通过酶催化反应和抗菌金属离子掺杂结合的制备新策略,合成出具有银掺杂的无定形相纳米结构磷酸钙。首先,通过透射电子显微镜、傅里叶红外光谱、X射线衍射等方法
目的:出血性转化是急性脑梗死血管内治疗后最严重的并发症,会严重影响患者的预后。因此,许多研究者试图通过多种影像学或者临床资料预测脑梗死患者治疗后出血的风险。本研究试图根据急性缺血性卒中患者CT图像(CTA和NCCT)的纹理分析进行HT预测,并与传统临床评分方法进行预测效能比较。方法:收集141例急性缺血性脑卒中(AIS)患者,其中血管内治疗(EVT)73例,保守治疗(CST)68例。我们将研究对象
命名实体识别(Named Entity Recognition,NER)技术是对文本中的命名实体进行探测和分类的技术,是信息抽取(Information Extraction)技术中十分重要的组成部分。相对于传统的NER方法如条件随机场、支持向量机等模型,基于深度学习框架的NER方法逐渐成为了NER领域的主流。基于深度学习的NER方法利用文本序列中文字的词或字嵌入特征(word/char embe
文学作品的翻译一直是翻译中的重要组成部分。随着中外文化交流的不断深入,文学作品的翻译量与日俱增。小说由一组组事件构成,一个小句表达的是一个事件。本文从体识解的角度出发,先阐述体和体识解的定义及类型,再以短篇英文小说The Siege at Whale Cay的汉译为例,针对译文中事件语义截取的不同阶段进行实例分类和剖析,归纳出英汉翻译中事件体的截取特征,具体分类为:零度再截取和事件体再截取。其中事