论文部分内容阅读
近年来,越来越多的研究致力于分布式学习。具体来说,在大数据的背景下,互联网每秒产生并收集TB级乃至EB级的数据。不仅数据量庞大,而且对于数据的复杂性和数据的多样性,传统的机器学习方法同样面临着巨大的挑战。目前,许多分布式学习算法已经被开发来解决大数据背景下不同的分布式学习问题。本文主要包括以下两个研究。第一项研究是通过应用一个分布式优化算法考虑了一个在无向连通网络下的分布式学习问题。我们首先描述并公式化这个分布式学习问题,并且提出了基于模糊逻辑系统(FLS)的分布式合作学习(DCL)算法。网络中的每个节点使用该算法训练自己的输出权重向量达到全局代价函数的最优。此训练过程使用的是分布在不同的节点上却不能聚集到网络中任意一个节点上的数据。然后,通过使用代数图论和Lyapunov方法给出一个定理来建立基于FLS的DCL算法的收敛性理论分析。该收敛性分析的结果证明基于FLS的DCL是指数收敛的。进而,简要描述了用来解决此问题的四个现有的分布式学习算法,即基于分布式平均一致性(DAC)学习算法、基于交替方向乘子法(ADMM)的学习算法、先自适应后组合(ATC)和先组合后自适应(CTA)的扩散最小均方(LMS)算法。然后,将基于FLS的DCL算法和这些已有的算法进行了比较。所提出的FLS系统的DCL算法有三个主要优点:1)该算法是指数收敛的;2)在每一迭代步,该算法需要小的计算量和通信量;3)没有相邻节点间的原始数据的交换保护了隐私和机密的信息。最后,针对机器学习的基准问题,即回归和分类问题,分别各做两组仿真实验。回归问题的仿真实验是:sinc函数的逼近和预测机翼自噪声。分类问题的仿真实验是:双月模式的分类和鸢尾花植物的分类。这四组仿真实验阐明了基于FLS的DCL算法的有效性和优点。第二项研究是通过使用基于gossip的通信协议考虑了在时变无向随机网络下的分布式学习问题。我们首先公式化这个分布式学习问题并且提出了基于gossip的DCL(GBDCL)算法。类似地,使用该算法训练分布并局限在不同的节点上的数据来解决此问题。然后,使用Lyapunov方法和一些现有工作的证明思路给出GBDCL算法的收敛性理论分析。此收敛性理论分析的结果表明在时变无向随机网络下,GBDCL算法具有渐近收敛的性质。进而,与现有相关工作做比较,GBDCL算法甚至可以在具有节点移动性和通信链路改变的实际网络中执行。最后,同样针对机器学习的基准问题,即回归和分类问题,分别各做两组仿真实验。回归问题的仿真实验是:带高斯噪声的一个特定函数的逼近和预测一个联合循环发电厂的每小时的静电能输出。分类问题的仿真实验是:双月模式的分类和房间占有率的分类。这四组仿真实验验证了GBDCL算法的正确性和有效性。