面向数据流的分布式SVM算法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:jsw10000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
支持向量机(Support Vector Machine,SVM)是基于统计学习理论提出的经典学习算法,具有理论基础完善、泛化性能好、可以解决高维非线性问题等优点,被广泛应用于图像处理、文本分类、语音识别、异常检测等诸多分类预测领域。传感器网络监测、故障预测、入侵检测等在线分类预测问题日益增多,不同于传统的批处理,流数据具有数据量大、实时到达、动态变化等特点,传统批处理的SVM算法无法直接满足流处理需求,研究面向数据流的SVM算法对在线分类预测问题具有重要的意义和实用价值。由于数据量巨大,串行算法难以满足实时高效的要求,因此需要通过分布并行来提高算法执行效率。然而,SVM因计算复杂度高、参数耦合度高等特点,使得分布式SVM面临着效率较低、加速比提升有限等问题。为了满足不同地区对数据中心的动态访问需求,为用户提供更高效优质的服务,以及提高数据中心可靠性,越来越多的跨区域数据中心被建立部署。由于跨数据中心数据处理面临着通信成本高、网络环境不稳定、隐私保护等问题,如何实现低通信开销、避免传输原始数据的跨数据中心算法成为亟待解决的问题。本文从单节点、多节点、跨数据中心三个层次,针对数据流环境下,SVM算法的时间开销和通信开销等问题进行研究,主要工作如下:在单节点层次,SVM增量学习通常利用历史数据与新数据共同作为增量学习训练集更新模型。在数据流环境下,数据实时到达,数据量无界,使用传统方法进行增量学习时,支持向量会不断积累,增加增量学习过程的时间开销。为此,本文提出了一种保留部分支持向量的增量式SVM算法(Reserving Partial Support Vectors Incremental Learning Algorithm,PSVIL)。首先,根据支持向量到分类超平面的距离,将支持向量分成若干组,根据各组支持向量数量比例,计算各组应选取支持向量的数量。然后,各组内通过最大化向量间距之和的方法,选取尽可能分散的支持向量。各组选取的支持向量合并为历史向量的一个子集,该子集代表历史信息参与模型更新。最后将历史支持向量子集与新数据混合,构成增量学习训练集,训练新的模型,完成模型的更新。实验结果表明,该算法准确率与传统算法相差0.1%以内,平均时间开销降低68%。在多节点层次,现有分布式SVM算法通常将新数据随机分散至各节点,在各节点内使用分组数据与全局支持向量训练局部模型,然后将各节点训练得到的局部支持向量汇总到全局节点,作为全局节点的训练集训练全局模型。然而这种方法获得的加速比较低。因此,本文提出一种均匀数据划分的分布式SVM算法(Uniform Data Partitioning Distributed SVM Algorithm,UDPSVM)。该算法首先将新数据和历史支持向量分别划分到各节点,在各节点内使用新数据子集和历史支持向量子集训练局部模型,然后将各节点局部模型的参数进行汇总得到全局模型。新数据的划分首先使用K-means算法将各类别数据进行聚类,然后将每簇数据平均分散至各节点,使各节点的新数据分布与新数据全集近似。历史支持向量的划分首先根据支持向量到分类超平面的距离进行分组,然后将各分组的支持向量平均分散至各节点,使各节点的历史支持向量到分类超平面的距离分布与历史支持向量全集近似。通过上述数据划分方式,各节点数据分布与全局近似,因此各节点训练的局部模型近似全局模型,通过将局部模型的参数进行平均,得到全局模型。实验结果表明,该算法准确率与现有算法相差0.1%以内,加速比提高2-8倍。在跨数据中心层次,针对将原始数据汇总到单数据中心造成的通信开销高的问题,本文提出一种跨数据中心的分布式SVM算法(Geo-Distributed SVM,GDSVM)。各数据中心单独训练局部模型,然后将各局部模型进行加权平均得到全局模型,每个数据中心都保存全局模型。在数据分类阶段,新到达的数据直接在本地进行分类,保存部分新数据并打标签,然后分别计算全局模型和局部模型的准确率。在增量学习阶段,各数据中心交换局部分类准确率,根据各局部模型的分类准确率调整其在全局模型中的权重。该算法避免了大规模原始数据传输,降低通信成本。实验结果表明,该算法准确率与将原始数据汇总到单数据中心处理的方式相差0.5%以内,平均通信量降低52%。
其他文献
语体是在长期的运用过程中历史形成的与由场合、目的对象等因素组成的功能分化的语境类型所形成相适应关系的全民语言的功能变异类型1。《新疆图志》是新疆建省后的第一部综合性通志,体例丰富,内容包罗万象。《学校志》和《兵事志》同属于《新疆图志》,但因二者不同的语体类别,在语言手段的选用上形成了各自的特色。我们以2.06万字的《学校志》和2.16万字的《兵事志》为语料,经过对比,主要考察《新疆图志》说明语体和
互联网技术的持续发展推动并加速了管理业务的发展进程,越来越多的管理业务涌现在互联网平台上。如何选择并组合这些数量众多、功能单一的管理业务以实现更为强大且更能满足用户需求的功能已经成为当下学术界研究的热点。在管理业务数量急剧增长的情况下,传统的管理业务服务组合方法已经不能适应大规模数据下的动态服务组合。因此根据用户的需求生成QoS感知的管理业务服务组合是本文将要解决的问题,基于此,本文进行了如下工作
人口健康一直是我国居民与政府关注的热点问题。健康水平不仅可以影响居民的幸福感,同时对国家的经济与社会发展也具有重大意义。随着我国人口的急剧增长与居民健康水平的日益复杂化,人们对于影响人口健康的因素与作用机制越来越重视。社会资本不仅在政治学、经济学等方面有广泛应用,其对人口健康的作用已成为近年来关注的焦点。本文即是在这样的背景下,较为全面、深入地研究社会资本对我国城乡居民健康的影响机制。在总结和借鉴
随着互联网的发展以及网络娱乐产业的盛行,直播视频流应用变得日益瞩目。人们使用手机、电脑以及其他电子设备在任意时间、任意地点观看着诸如游戏直播、体育竞赛等各类直播应用,使得直播环境下的视频流传输异常艰难。如何在复杂的网络环境、多样的视频类型下传输高质量、低时延的稳定视频流已经成为实时流媒体领域里的重大挑战。针对上述挑战,本文基于强化学习理论提出了一种面向低时延直播流的码率自适应算法,主要工作包括:(
随着经济社会的发展和人民生活水平的提高,我国政府高度重视新型城镇化建设,特色小镇作为推动新型城镇化建设进程的关键着力点,较好的适应了我国新常态下的转型发展。近年来,青岛海青镇围绕区域发展重大战略,坚定“特在产业上、特在文化上、特在风格上”的发展理念,发挥自身资源优势,培育特色产业和文化,发挥多方力量,打造特色小镇,提高城镇化水平,实现科学、绿色可持续发展。本文运用文献研究法、调查研究法及比较分析法
无人机磁反潜、地磁导航、智能磁引信等新兴弱磁探测应用快速发展,急需高性能小型三轴磁传感器。磁电阻传感器,尤其是巨磁电阻(Giant Magneto Resistance,GMR)和隧道磁电阻(T
食品安全与人们的生活息息相关,是一项关系到社稷民生的重大安全工程。它是最基本的公共安全问题,影响着人们的身体健康和生命安全,关系到社会持续稳定的发展,对政府的执政水平提出了严格的要求。近年来,我国的食品安全状况总体较为稳定,质量安全水平不断提高。但是我们也必须有要有一个客观清晰的认识,即当前我国食品安全的基础还比较薄弱,各种食品安全问题易发多发,人们对于食品安全的信任度和满意度还不高,保障食品安全
我国现在已经跃居为全球电梯保有量最大的国家之一,电梯市场竞争也越来越激烈。与此同时,中东,印度,俄罗斯,东南亚及美洲等的海外市场也吸引了国内的各大电梯厂商,尤其这些区域内的发展中国家因为这几年经济的急剧增长,并且大力发展国家的基础建设设施,因此电梯市场具有很大的需求。面对这些市场骤然增长的电梯需求量,国内的各大电梯企业也积极地投入到这个市场中,但是如何与国内还有国外的竞争对手竞争,如何从这些竞争对
目的:观察白蛋白结合型紫杉醇联合铂类或异环磷酰胺治疗复发性卵巢癌的临床疗效及毒副反应。方法:回顾性分析我院46例复发性卵巢癌患者接受含不同制剂紫杉醇的联合化疗的疗效
区域人口迁徙数据是直观反映区域城市间相互联系和城市吸引力的重要表征,围绕京津冀、长三角、粤港澳、成渝4个城市群人口迁徙数据,突破传统研究中小样本、低时效的不足。基