论文部分内容阅读
社交网络分析是人工智能的重要分支,而社交网络上的影响力最大化问题自提出以来就受到广泛关注,研究学者为此提出了诸多模型和算法。目前有关研究主要关注根据目标影响范围或者限制条件给出一次性选点的静态策略,没有考虑对于影响力最大化问题的动态建模问题。然而,在实时变化的网络状态中,静态策略未必能够取得好的影响力效果。本文提出基于强化学习对影响力最大化问题进行研究。强化学习算法中智能体根据与环境的历史交互序列进行学习,这些序列具有天然的时间特性,因此强化学习算法能够给出时间层面上满足限制条件的影响力最大化动态策略。同时,强化学习算法给出的动态策略能够应对不断变化的网络状态,根据网络实时状态给出即时的影响力最大化策略。另外,强化学习算法支持对奖赏值进行灵活设置,基于此能够实现影响力最大化问题中激活种子节点的成本控制。本文将影响力最大化问题分为单智能体和存在竞争者的多智能体影响力最大化问题。为单智能体影响力最大化问题求解动态策略,首先将其建模为具有马尔科夫性质的动态最优规划问题,构建强化学习框架,然后选择合适的算法进行仿真实验。在与部分经典影响力最大化算法的对比中,强化学习算法具有明显优势。影响力最大化问题本身是NP-hard的,多智能体影响力最大化问题的求解更加困难,目前少有对多智能体影响力最大化问题动态纳什均衡策略的研究。本文使用基于Self-play思想的DQN算法、Nash Q Learning算法和Nash DQN算法对多智能体问题进行求解。基于Self-play思想的DQN算法适用于多智能体依次执行动作的情境,并且能够将多智能体影响力最大化问题缩减为两智能体影响力最大化问题。Nash Q Learning算法适用于小型网络,能够保证收敛到纳什均衡策略。Nash DQN算法通过神经网络求解近似纳什均衡,能够对规模稍大的网络进行求解。虽然本文提出的多智能体影响力最大化算法在大规模网络上表现并不出色,但是多智能体系统模型复杂,因此这一问题本身十分困难,本文提到的方法为多智能体影响力最大化问题的相关研究提供了一个崭新的思路。