论文部分内容阅读
传统的基于CDN和P2P技术的流媒体系统存在可靠性差、扩展代价高等缺点。云计算技术的成熟使流媒体服务向云形态转变,流媒体云可以很有效地解决上述问题。将流媒体云放置在网络边缘,可以减轻核心网络的流量负载和提高用户请求的响应速度。通常情况下,流媒体边缘云系统资源是按需分配的。相比于传统流媒体服务系统,弹性的流媒体边缘云对资源调度具有更高要求。目前,流媒体边缘云资源调度问题的求解方法大多是传统的启发式方法或规划方法,存在自适应性不足、时间复杂度高等问题,难以根据系统运行场景进行策略调节。强化学习以试错的机制与环境进行交互,能够自动适应复杂环境,通过使累积回报值最大的方式来学习到最优策略。因此,本文使用了强化学习方法来解决流媒体边缘云系统会话调度问题,完成的主要工作如下:1)在考虑迁移代价、负载均衡等约束的前提下,提出了一种基于深度强化学习的流媒体边缘云会话调度策略。具体地,根据流媒体边缘云系统调度问题的特点,定义状态空间、动作集合、回报函数等元素,采用卷积神经网络拟合策略函数和动作-价值函数,分别解决高维输入和动作-价值函数的存储和泛化问题,通过确定性策略梯度强化学习算法来训练神经网络。2)实现了深度强化学习算法,并且采用该算法进行了仿真实验。首先,搭建实验平台,编程实现基于确定性策略梯度的强化学习算法,然后根据算法流程,完成神经网络的训练。最后,进行用户请求接入的仿真实验,利用训练好的策略网络来处理用户的请求接入问题。综上,本文基于深度强化学习方法实现了会话调度算法,并且进行了仿真实验来验证算法的有效性。实验结果表明,该策略能够取得很好的请求接入效果,并且降低了迁移代价,缩短了算法的运行时间。同时,算法在不确定的流媒体边缘云系统环境中具有一定的适应性。