基于划分与压缩的加速学习算法研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:lucasyvette
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现实世界中运转的许多复杂系统如基因表达、风险评估、经济预测等都可以抽象为特定的预测问题,而这些预测问题的高效解决将对社会的生产生活产生重大意义.机器学习作为一种解决这些复杂预测问题的重要方法,它能够通过从经验中不断学习来提高其自身的学习与预测能力.现阶段,随着信息技术的迅猛发展与各领域大数据的爆发,很多实际应用中的数据规模都呈现出爆炸式增长.数据的大规模性使得已有机器学习方法在解决预测问题时面临巨大挑战.因此,研究高效的机器学习算法具有重要实际应用价值和理论意义.有监督学习是机器学习中应用最为丰富、内容最广泛的部分,如何高效地在大规模数据上训练泛化性能强的学习器是机器学习研究领域面临的关键问题之一.为此,本文以数据划分与数据压缩为研究基础,针对面向海量数据如何提升学习算法的执行效率问题开展了系统研究.主要研究成果如下:(1)针对支持向量机面对大规模数据训练效率较低的问题,借鉴于分而治之的思想,提出了一个基于局部几何信息的高效支持向量机算法.对于给定的大规模数据集,基于支持向量机算法中决策函数由少数支持向量确定的特点,利用线性投影来探究当前数据中的分类决策边界,并深入分析了如何对数据进行划分、划分后子集上的分类器的训练以及分类器的融合三个核心问题,构造了一个高效的支持向量机算法.实验结果表明,该算法获得了比已有的三个代表性算法更高的执行效率.(2)针对现有的基于数据划分的k-近邻分类加速算法缺乏理论分析的问题,本文利用优化理论给出了相应的机理分析.根据k-近邻分类算法的局部性特点,将寻找k个近邻的过程转化为一个优化问题,并给出了原始优化问题与使用数据划分优化问题在最优解下目标函数差异的估计.在此基础上提出利用K-means聚类减小此差异,进而设计了基于K-means聚类的k-近邻分类加速算法.本文提出的数据划分对算法泛化性能影响的估计进一步夯实了基于数据划分的加速学习算法理论基础.(3)针对k-近邻算法因存储所有训练实例而导致其预测效率较低的问题,本文借鉴样本表征整体的思想,分别提出了基于数据压缩的高效k-近邻分类和高效k-近邻回归算法.通过探索训练实例在输入空间中的分布,构造了一个数据分层机制,并结合随机抽样的特点提出了一个基于分层抽样的高效k-近邻分类算法;基于k-近邻回归算法的局部性特点,构造了单个实例对回归模型贡献的度量,并给出了识别噪声实例和冗余实例的判定准则,在此基础上建立了删除噪声实例和冗余的实例的有效机制.实验结果表明,本文提出的数据压缩算法获得了比已有的五个的代表性压缩算法更低的实例存储率.(4)针对Logistic回归算法的训练过程因数据规模巨大而导致其计算梯度效率低的问题,基于统计学习理论,提出了一个基于按需抽样的Logistic回归加速算法.依据优化学习理论,给出了确保样本集上的梯度估计所在方向是使得目标函数下降的方向的准则.在此基础上,借助于分而治之的思想,将满足此准则的多元估计问题转化为若干个一元估计问题,设计了一个依据已抽样样本集信息的自适应确定样本量的按需抽样算法,且理论上证明了此算法得到的梯度估计以很大的概率确保是当前目标函数下降的方向.此算法克服了随机抽样需要事先确定样本量的难题,并加深了基于随机抽样的加速学习算法的理论研究.本文针对传统机器学习算法面向大规模数据执行效率较低的问题,基于数据划分与数据压缩,提出了一系列高效的加速学习算法.相关实验结果验证了提出算法的有效性与高效性,并为智能信息处理提供了新的技术支撑.
其他文献
"荒野"精神是美国现代诗人加里.斯奈德思想的核心,它类似于"道"。斯奈德的语言观与诗学观与其"荒野"精神一致,主张用自然的语言来表现自然。他认为中国古诗语言与其理想中的自然语
根据重大基础设施工程及工程管理复杂性的特点,提出管理主体在工程管理实践中的适应性选择行为基本准则,论述了该准则的基本原理及科学内涵;并从实际操作与执行力出发,设计了
<正>2001年前的信托业,作为我国传统金融业的补充,确实在弥补银行信贷不足、突破计划体制的限制、推动城市基础设施建设、促进地方经济建设等方面发挥了作用,同时,也在某种程
改革开放以来,我国经济飞速发展,特别是滨海经济发达地区,产业分布和城镇化程度都发生了巨大改变。为了缓解城市化面临的负面影响、转移人口压力和社会功能,作为高度城市化代
当今时代是新数字媒体时代高速发展的社会,因而当今时代是新数字媒体时代下的时代,新数字媒体时代呼唤网络时代下的网络文学。同时,新数字媒体时代下的网络文学也面临一些困
原发性肝细胞癌(肝癌)是我国常见的恶性肿瘤,其发病率和死亡率均位列恶性肿瘤第二位。肝癌的高侵袭、易复发和高转移特征已成为制约患者长期生存改善的瓶颈。探索肝癌转移机
顺应信息技术迭代更新、跨界融合和颠覆式创新的潮流,适应经济社会发展对创新人才培养的需求,因应教育信息化2.0发展变革的趋势,智慧教学将倡导和追求学为中心、能力为先、教
目的与意义:表皮生长因子受体( epidermal growth factor receptor, EGFR)在许多肿瘤细胞中异常过量表达,与肿瘤的增殖与转移紧密相关,是肿瘤靶向治疗的重要靶点。西妥昔单抗
马铃薯具有较高的食用品质及加工特性,但在贮藏期间易发芽,造成营养物质损失并产生有毒物质,严重影响其经济价值。目前发现新型保鲜剂二氧化氯可以抑制马铃薯发芽,但机理不清
完善政府安全生产宣传教育工作,对于个人安全、家庭幸福及社会稳定等均产生重要的影响。但安全生产宣传教育仍存在宣教效果不佳;宣教公式化;资金利用不合理;物资的维护现状不