基于部分可观察马尔可夫决策过程的引导式学习模型研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：Tianjun9

【摘要】

：

【作者】

：

罗俊

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2021年01期

【关键词】

：

强化学习部分可观察马尔可夫决策过程优先级引导式学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着知识技能日新月异,让训练对象尽可能快的通过学习掌握技能和知识,以满足不同任务的需求,已经成为非常重要的研究课题。因为不同个体的学习能力有差异,而且会存在优先级高的对象个体,如何进行引导式自动学习,以提高学习的效率和质量,减少不必要的时间和物力消耗,已成为学术界和工业界共同关心的问题。为了解决传统式引导式学习方法的弊端,优化学习资源分配,本文在基于均匀采样学习算法和基于贪婪策略学习算法的基础上,提出了基于部分可观察马尔可夫决策过程的引导式学习,利用指数加权移动平均方法,通过比较不同用户的累加学习效果,动态分配学习资源,通过设置学习停止条件,进一步优化学习资源分配,在保证高优先级用户学习效果的同时,提高包括高优先级用户在内的整体学习效率。最后,使用LSTM神经网络十进制不同位数的加法模拟不同学习能力的用户,通过大量的实验验证了我们提出的基于部分可观察马尔可夫决策过程的引导式学习的有效性,并在学习效率和学习效果两方面均优于基于均匀采样和基于贪婪策略学习算法。

其他文献

基于混合算法的个性化推荐系统研究与实现

随着信息技术的快速发展,互联网用户量和信息量规模不断扩大,海量的信息资源导致了信息过载。推荐系统是解决信息过载的有效方法。但是,现有的推荐系统仍存在稀疏性、冷启动等问题。为此,本文首先提出一种基于Bhattacharyya系数的相似度计算方法,来解决推荐系统中的数据稀疏问题;接着,提出基于标签感知的混合神经网络模型,来解决标签推荐中存在的稀疏、冗余和语义模糊问题,同时缓解了冷启动问题;最后,结合上

学位

协同过滤相似度计算标签感知神经网络推荐系统

江北区慈城镇：谋定“三进三出”开发建设思路打造全省“千年古城复兴”试点样板

江北区慈城镇是中国历史文化名镇,拥有7000年的文明史、2500年的建城史、2200年的建县史以及1200年的县城史,是江南地区保存最完整的古代县城,是中国唯一入选BBC全球"传承的英雄"的文化保护典范,获得联合国教科文组织亚太地区文化遗产保护荣誉奖。

期刊

基于谱聚类和点特征的运动分割研究

运动分割是计算机视觉与视觉信息处理领域的一种重要运用,它是分析视频场景与目标跟踪技术的基础,所以在很多方面都得到应用,比如:视频监控,汽车自动驾驶,自动导航,自动追踪等领域。近几年,视频数据在急速扩张,传统的聚类算法在面对如此高维的数据的时候已经显得很乏力,所以算法的改进是一直被广泛关注的课题,同样,在运动分割领域,高维数据,异常值数据,视角的不确定性都对传统算法提出了挑战,所以对现有的运动分割算

学位

谱聚类运动分割相似度矩阵几何约束成对匹配点特征

基于国产处理器的流数据目标识别算法及应用研究

近年来随着智能交通辅助管理技术的不断进步发展,其为人们的生活增添了诸多便利。视频监控作为交通辅助管理的主要数据来源之一,其数据增长速度远超当前网络带宽的增长速度,为此实现视频流数据的高效处理是当前的一个研究重点。云计算虽然能实现数据的高效处理,但是中间数据传输延时较高,难以满足交通视频流数据处理时效性的需求。因此,边缘计算相关技术应运而生,其作为云端的算力衍生,在一定程度上缓解了以上问题。而国产龙

学位

轻量化网络交通目标检测边缘计算流数据处理

柔性相变执行器及其三维重建应变检测技术的研究

柔性相变执行器即使用柔性、可拉伸材料制成的相变执行器,在工业、医学、生物学、仿生机器人学等领域都有广阔的应用前景。本文设计、仿真并制备了两种结构的相变执行器,并搭建了三维重建系统,基于结构光三维重建检测技术对其应变性能进行了分析,主要研究内容如下:首先分析了相变执行器流体和超弹性体的模型,并设计了两种相变执行器的结构——单腔相变执行器以及双腔-微流道相变执行器,使用有限元分析（FEA）对这两种结构

学位

柔性执行器相变快速成型技术结构光三维重建

基于学习的指静脉超分辨率重建技术研究

指静脉特征识别技术凭借其安全性、易获取性、唯一性等优势在生物特征识别领域逐渐成为一个研究热点。但是限于拍摄环境、硬件系统和硬件成本,得到的图像其分辨率往往无法达到预期目标,分辨率低下的图像会严重影响识别系统的识别率。高分辨率图像拥有大量的图像细节,细节信息携带了丰富的图像特征,这对于指静脉图像的识别率至关重要。在这种情况下,通过基于学习的算法将低分辨率的图像转化为高分辨率的图像是一个可行的方案。图

学位

超分辨率重建指静脉识别邻域嵌入邻域重建深度学习

基于区块链的物联网标识管理的研究

物联网的快速发展,越来越多的物联网装置被部署到网络中负责数据的采集、存储、处理。在感知层的物联网装置负责收集用户的数据并传递,在网络中的物联网装置负责对数据进行处理。无论是感知层还是网络层的物联网装置均需要与其它装置进行互相通信,协作才能完成任务。在物联网装置进行通信前,数字标识作为其在网络中的身份证明,起着十分重要的作用。目前,物联网中主要采用注册服务器对物联网装置的标识进行集中管理。这种方式存

学位

区块链物联网标识管理智能合约

基于深度学习的音频场景分类

音频场景分类是对音频数据的识别和分类,即识别判断所记录声音的环境标签,可以应用于音频监控、异常发现和风险防控等多种安防监听系统。随着音视频监控等场合记录的音频数据越来越多,传统分类方法在面对大量数据时显现出了劣势,而此时深度学习技术则已被证明在利用数据特征和建立模式识别方面具有特定优势。本文以卷积神经网络为主要模型,从数据集和网络结构两方面对音频场景分类系统做出改进,分别在未引入更多数据量的前提下

学位

音频分类声谱图梅尔滤波卷积神经网络残差网络

基于机器学习的高压电远端检测模块状态变化分析及老化预测

换流站光测量系统远端模块的主要作用是实现该系统中电信号和光信号的相互转换,作为高压直流输电系统的核心设备,其运行可靠性对电力系统的安全稳定运行具有重要意义。然而,由于远端模块运行环境较为复杂,近年来因远端模块导致的超高压直流输电公司光测量系统故障频发。但目前对其运行状态检测及故障诊断技术的研究在领域内仍属空白,其失效趋势无法预测,运行状态难以判断,运维规范相对匮乏,设备全寿命周期管理无技术支撑。因

学位

远端模块运行状态离群点检测熵权法剩余寿命多元线性回归

基于生成对抗网络的文本到图像生成技术研究

在互联网时代,人们获取图像的方式主要是通过搜索引擎在数据库中进行检索,但由于一句话可能对应很多不同的图像,所以很难找到想要的图像。随着人工智能技术的突破创新,文本到图像生成任务也具有了一定的可行性。文本到图像生成是一项涉及了自然语言处理与计算机视觉的跨模态任务,该任务的目标是不仅要保证生成的图像真实,而且要保证生成的图像与给定的文本描述语义一致。近年来,研究者以生成对抗网络（Generative

学位

自然语言处理计算机视觉生成对抗网络注意力

基于部分可观察马尔可夫决策过程的引导式学习模型研究

其他学术论文