论文部分内容阅读
随着移动互联网的快速发展和智能终端技术的不断更新,无线移动用户的数量在过去几年中不断增加。预计这种趋势将在未来几年内会一直持续。考虑到用户数量的蓬勃发展,无线网络的移动流量也将不断增加。为了满足未来移动通信的需求,应不断的提高网络容量。增加容量的有效方法是为无线通信系统分配更多的频谱资源。然而,随着频谱行业的迅速发展,频带已经变得人满为患,但用户对频谱资源的需求却越来越迫切,从而导致频谱变成了一种稀缺资源,因此为网络中的每个用户分配足够的频谱资源是不现实的。另一方面,由于传统的频谱管理策略仍存在一些不足,例如,频带只允许获权的主用户使用,未获权的辅助用户不允许使用该频带,这类问题导致已分配的频谱资源并未得到充分的利用。在这样的背景下,为了缓解这一矛盾,提高频谱的利用率是刻不容缓的,认知无线电技术便应用而生。认知无线电技术以认知能力为核心,并且可以从环境中学习并适应该环境,这为缓解频谱短缺和频谱利用率不足的问题提供了有效的解决方案。在认知无线电网络中,具有自主学习能力的强化学习算法能够更好的解决频谱分配问题,强化学习算法可以为有限马尔可夫决策过程(MDP)确定最佳策略,该策略用于对不确定性下的动态频谱访问问题进行决策建模。而强化学习中的Q学习是一种有效的决策模型,因此,基于Q学习的动态频谱接入技术具有非常重要的研究价值。基于此背景,本文的具体研究内容如下:(1)本文提出了一种改进的基于Q学习的认知无线电网络频谱资源分配算法。从Q学习的角度构建数学模型,将认知无线电网络中的多个辅助用户作为多个学习者,而无需事先了解相互的干扰。具体为重新设计了奖励函数功能,其基本原理是在学习过程中对连续正确的行为给予强有力的奖励,而对连续错误行为给予强有力的惩罚。改进的奖励函数可以更好地激发算法的学习潜力,同时该算法更接近实际情况且更加智能和用户友好。此外,平均意见值(Mean Opinion Score,MOS)已成为衡量终端用户主观体验质量(Qo E)的广泛使用指标。因此,开发一种基于MOS的分布式动态频谱访问(DSA)方案,在满足主用户(PU)干扰约束且总MOS值最大的条件下,可以实现主用户和辅助用户的共存。仿真实验结果表明,与原始的Q学习算法相比,在MOS值和平均比特率方面,绝大部分情况下所提出的算法优于原始的Q学习算法,保证了用户的良好体验质量。(2)本文设计了一种基于博弈的Pareto-Q学习算法(GPQL),从联合博弈的Q学习角度出发,构建数学模型,将认知无线电网络中的诸多辅助用户视为学习者,只需利用其历史状态,无需了解各个用户之间相互干扰的先验知识。通过Q学习,在满足主用户可容忍干扰限制条件下,可以允许主用户和辅助用户以公平的方式共享频谱。由于原始的Q学习算法效率较低,无法获得更好的频谱资源分配。考虑在进行频谱资源分配时能够采用一种更优的方式,本文将博弈论与Q学习算法相结合,在研究多个学习者的行为协作方式时,从合作联盟收益的结构分配角度出发,提出一种改进的Pareto-Q学习算法,该算法以多个学习者的合作联盟理论和马尔可夫博弈理论为基础,在强化学习的基础上,将局部联合最优行为目标视为全局目标,利用每个学习者都能接受的共同利益分配,通过迭代学习的方式将全局目标转化为局部Pareto联合最优行为目标。同时还引入了sigmod函数,使算法具有更好的决策执行能力且能够将Q表中的值控制在有限范围内,使数据在迭代过程中不易发散。仿真实验结果表明,GPQL方法在系统吞吐量和系统碰撞率方面均优于原始的Q学习,因此,这证明基于博弈的Q学习是可行且有效的。