论文部分内容阅读
随着4G、5G技术的不断发展,未来的网络逐渐具备高动态化、密度时变化、异构化的特征。未来用户所处的无线网络环境中一定是存在多种类型的网络制式的,因此,如果用户设备能够在核心网管理器的策略下对不同接入网资源进行聚合,整个网络系统的闲置资源将会得到充分利用,移动用户设备的服务质量也将得到提高。但是传统的用户设备单连接的方式显然无法满足用户设备聚合多种网络资源的需求,目前用户多连接的方式主要分为两种,一种是用户设备同时聚合基于长期演进技术(Long Term Evolution,LTE)的蜂窝网络和基于IEEE 802.11标准的无线局域网络(Wireless Local Area Network,WLAN)的资源,另一种是用户设备同时聚合4G网络端口资源与5G新无线(New Radio,NR)端口的资源。相比于单连接方式,移动用户设备同时接入多个无线网络会使整个网络系统资源管控更加复杂,已有的大部分文献在探寻这种用户关联多个网络的资源管控技术的最优解时,都将优化目标作为NP-Hard问题进行求解,为了求出全局最优解或局部最优解,提出的算法计算复杂度远远大于多项式级的计算复杂度,不具有实际意义。由于强化学习的自适应性,本文探索了使用强化学习来实现用户多连接的资源管控技术,分别设计了基于深度Q学习网络(Deep Q-learning Network,DQN)的用户接入算法和基于行动家-评论家(Actor-Critic,AC)框架的用户流量分配算法。通过仿真验证,基于DQN的用户接入算法的性能优于传统的用户接入算法,例如:用户最近邻接入算法等;基于AC框架的流量分配算法的性能与一种基于匹配的比例公平用户双连接算法的局部最优解相似,但计算复杂度小于此算法。最后,本文介绍了一种异构网络资源管理架构,并在上面使用强化学习方法对用户多关联技术做了简单仿真,发现了当用户发起大容量高码率的多媒体业务时,用户的服务速率得到了显著的提高。本文具体创新点介绍如下:(1)由于DQN只能处理低维离散动作空间,但模型结构较为简单,计算复杂度较低,本文将其应用于用户关联网络的粗粒度资源管控问题,通过与传统用户接入算法相比较,发现DQN以牺牲一点计算复杂度的代价带来了系统整体利用率的提升,具有较好的平衡性。(2)由于DQN对动作空间要求的局限性,本文进一步引入了AC框架。由于AC框架使用确定性策略直接计算动作值,因而可以处理连续动作空间或高维度离散动作空间下的问题。基于这一特性,本文将其应用于用户流量分配的细粒度资源管控问题,通过仿真结果发现了基于AC框架的资源管控技术以多项式级的计算复杂度可以得到非常接近于一种基于匹配的比例公平用户双连接算法局部最优解的性能。