ReinforcementLearning 相关硕士博士期刊学术论文

ReinforcementLearning相关论文

Minimax Q-learning design for H∞ control of linear discrete-time systems

The H∞ control method is an effective approach for attenuating the effect of disturbances on practical systems, but it ......

期刊

H∞ control Zero-sum dynamic game Reinforcement learning Adaptive dynamic program

基于强化学习的准分子激光器能量控制算法研究

光刻用准分子激光器的能量特性在集成电路的光刻过程中至关重要,直接影响光刻机曝光线条的精度。为了实现对于衡量能量特性的能量......

期刊

激光器光刻准分子激光器强化学习能量稳定性剂量精度 lasers photolithography excimer laser reinforcemen

基于注意力和强化学习的遥感图像描述方法

针对当前遥感目标检测方法只能识别出遥感目标的类别及位置,无法生成与遥感图像内容相关文本描述的问题,提出了一种基于注意力和强......

期刊

遥感图像描述强化学习注意力机制编码-解码 remote sensing image caption reinforcement learning att

边缘计算使能的天地一体化信息网络中通信与存储资源联合调度

5G时代移动设备产生了海量数据，其中大多数是多媒体内容。通过无线网络传输如此规模的多媒体内容将会消耗大量无线频谱资源，进而导致......

学位

计算天地一体化信息网络通信资源存储资源点匹配算法缓存命中率研究内容 Reinforcement Learning Information Netw

主动配电网运行优化的深度强化学习方法

随着分布式电源、柔性负荷等新型元素在配电网的渗透逐渐增加以及配电自动化系统、信息系统的建设,传统配电网正逐渐演变成可观可......

学位

电网运行优化系统运行方式 ADN 可中断负荷控制策略需求响应恢复控制故障恢复 Reinforcement Learning 实时环境分布式电源 Di

Reinforcement Learning Based Obstacle Avoidance for Autonomous Underwater Vehicle

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生......

期刊

Obstacleavoidance Autonomousunderwatervehicle Reinforcementlearning Q-learning F

提高强化学习速度的方法研究

强化学习一词出自行为心理学，这门学科把学习看作为反复试验的过程，以便把环境的状态映射为动作。强化学习的这种特性必须增加智能系......

期刊

强化学习机器学习 Q-学习自适应启发评价方法学习速度 Reinforcementlearning Machine Learning Q-learning

一类基于有效跟踪的广义平均奖赏激励学习算法

取消了平均奖赏激励学习的单链或互通MDPs假设，基于有效跟踪技术和折扣奖赏型SARSA(λ)算法，时传统的平均奖赏激励学习进行了推广，提......

期刊

激励学习 MARKOV决策过程平均奖赏有效跟踪 Reinforcementlearning Markov decision processes(MDPs )

在信息融合系统中引入多智能体技术

论文简要介绍了多智能体技术和信息融合系统，将多智能体技术运用到信息融合系统中，对信息融合系统中的模型和方法进行改进，提出了多智......

期刊

信息融合多智能体系统(MAS) 强化学习 information fusion multi-agentsystem reinforcementlearning

基于增强学习的多agent自动协商研究

该文通过对协商协议的引入，对提议形式、协商流程的分析，结合多属性效用理论和连续决策过程，提出了一个开放的、动态的、支持学习机制......

期刊

增强学习自动协商 Q学习评估提议 reinforcementlearning automated negotiation Q-learning evalua

基于博弈策略强化学习的函数优化算法

该文提出了一种基于博弈论的函数优化算法。算法将优化问题的搜索空间映射为博弈的策略组合空间,优化目标函数映射为博弈的效用函......

期刊

博弈函数优化强化学习策略组合效用函数 game function optimization reinforcementlearning strateg

折扣与无折扣MDPs：一个基于SARSA（λ）算法的实例分析

分析了折扣激励学习存在的问题，对MDPs的SARSA（λ）算法进行了折扣的比较实验分析，讨论了平均奖赏常量对无折扣SARSA（（）算法的影响。......

期刊

机器学习激励学习 SARSA(λ)算法实例分析 MDPs Reinforcementlearning Markov decision processes D

看过本文同时还关注