论文部分内容阅读
物联网(Internet of Things,IoT)的最终目标是实现人或物随时、随地、使用任何通信方式与任何人或物进行信息交互,IoT的高速发展将大大方便人们的生活。其中,机器对机器(machine to machine,M2M)通信指的是在无需人的干预的情况下实现设备之间的自主通信,是IoT的重要组成部分。蜂窝网络以其广覆盖、高可靠、支持高速移动等优点成为M2M通信的理想载体。然而,蜂窝网络中现有的资源分配算法主要针对传统的人对人(Human to Human,H2H)通信,而M2M设备具有业务种类繁多、省电要求高、数量大等独有的特点,已有的无线资源分配算法并不完全适用。本文引入了强化学习算法,并在两种场景下实现了对有限资源的合理分配。主要研究内容和创新点如下:1.针对M2M通信的多业务特性,使用三种不同的用户体验质量(Quality of Experience,QoE)函数区分设备的速率需求,并以提高QoE与减小功率消耗为目标进行频谱和功率分配。为了减小基站对海量设备进行集中式调度的负担,针对混合非线性规划问题,提出一种基于强化学习的分布式算法,将M2M设备建模成具有强化学习能力的智能体,使设备可以自主选择频谱和功率等级,大大减小了算法的复杂度。2.为了协调M2M设备对上行频谱的竞争,引入了基于博弈论的多智能体强化学习算法。同时,为了在无需信息交互的情况下实现智能体之间的协作,引入了预测方法,使智能体可以以自身行为为参照来预测其他智能体的策略。仿真结果表明,算法在QoE、省电和计算复杂度方面达到了较好的性能。3.为了减小M2M设备的能量消耗,提高它们的网络生存时间,将中继技术和能量收集技术结合起来应用在M2M通信网络中,主要关注中继选择和M2M终端与中继的功率分配,以及能量收集时间分割系数的划分。将最优化问题分解为三个子问题。首先依据信道条件进行中继选择,然后求解最优化问题得到源节点的发送功率,最后,为了实现带有可充电装置的中继的在无限时间内的速率最大化,利用强化学习延迟回报的特点实现时间分割系数和发送功率的选择,并引入值函数近似法处理中继所面临的连续状态。仿真分析表明,算法有很好的收敛性,并在中断率和平均速率上达到了较好的性能。