【摘 要】
:
针对最小二乘支持向量机处理大规模数据集耗时长且受内存限制的特点,将局部多模型方法与MapReduce编程模式相结合,提出一种并行最小二乘支持向量机回归模型。模型由两组MapReduce过程组成,首先按照输入样本集对样本数据进行聚类操作,再对聚类后得到的子类按输出样本集进行二次聚类操作,分别得到局部模型数目和各局部模型综合加权输出计算结果。实验结果表明,并行最小二乘支持向量机回归模型具有较好的加速比
【机 构】
:
长安大学电子与控制工程学院,长安大学信息工程学院,IBM中国系统与科技开发中心
论文部分内容阅读
针对最小二乘支持向量机处理大规模数据集耗时长且受内存限制的特点,将局部多模型方法与MapReduce编程模式相结合,提出一种并行最小二乘支持向量机回归模型。模型由两组MapReduce过程组成,首先按照输入样本集对样本数据进行聚类操作,再对聚类后得到的子类按输出样本集进行二次聚类操作,分别得到局部模型数目和各局部模型综合加权输出计算结果。实验结果表明,并行最小二乘支持向量机回归模型具有较好的加速比和可扩展性。
其他文献
一型模糊粗糙集可以直接处理连续属性集,但不能处理高度不确定性数据,而区间二型模糊集可以增强系统处理不确定性的能力。为了提高处理噪声数据的精确度,在一型模糊粗糙集的基础上,定义区间二型模糊粗糙集。基于区间二型模糊粗糙集模型研究了连续域决策信息系统的属性约简,通过紧计算域给出了新的约简算法。由于拒绝变量集合的存在,提出的约简算法可在有限时间内收敛,并且得到了更加合理的结果。数值仿真验证了约简算法的可行
针对容迟与容断网络中的单播通信问题,提出了一种自适应感知路由协议(adaptive context aware routing protocol,ACRP);并引入卡尔曼滤波理论,给出最优的消息轮渡节点选取策略。仿真实验表明,与常见的单副本拷贝或多副本拷贝协议相比,提出的面向情境感知的自适应路由协议拥有更好的传输性能和稳定性。
如何合理地分配云计算资源一直都是研究的热点。建立云计算环境下的资源调度模型,通过人工萤火虫算法个体最优与云计算节点资源分配对应起来,在算法中引入高斯变异算法,通过与经典函数比较,优化后的算法在搜索精度上以及收敛速度上有了很大的提高。通过在Cloud Sim平台上与经典智能算法的比较,该算法能够有效地提高云计算中的资源调度性能,缩短任务完成的时间,提高系统整体处理能力。
P2P中基于DHT的路由算法不支持范围查询,因此对高维数据查询的支持不是很好。当前P2P处理高维数据的主流方法是降维和空间填充技术,但两者均有很明显的缺点。针对这些问题,提出一种将树型结构——Baton树应用于高维数据检索的方法,操作简单,无须降维,且支持范围查询。经过实验证明,查询的时间复杂度达到O(log2n),与Baton树在检索一维数据时的效率相同。树型结构可以增加子节点数量,通过增加扇出
互联网开放平台提供的用户信息授权服务得到了广泛应用,但其在满足第三方网站的数据挖掘需求时往往将用户隐私信息交由多方存储,因而加重用户隐私滥用与泄露风险。针对这一问题,提出了一种开放平台与网站间的分布式关联规则挖掘算法,算法无须可信第三方参与,双方各自依据挖掘条件生成以频繁-1项集编号、用户身份标志符为行、列标记的布尔型矩阵,由开放平台进行矩阵扰动和整合,再由网站在整合矩阵上挖掘全局关联规则。实验证
生物信息学、社会网络、Web分析等方面的发展积累了大量的复杂网络数据信息,在对这些复杂网络进行社群检测时,往往会将一些节点归类于多个社群,目前已经提出了一些处理此类问题的算法(如LFK、GCE等),然而这类算法对局部扩充函数中参数α的选取过程复杂,无法一次性获取最优α,直接影响到了算法的可应用性。针对该缺点,提出了一种基于局部扩展的重叠社群检测的改进算法。该算法通过将α参数考虑进社群的成长过程中,
在多目标跟踪领域,多个相似目标间相互遮挡时易产生误跟踪、漏跟踪等问题。针对上述问题,通过引入语言学中的基础颜色及自适应尺度因子来解决。采用颜色命名过程及主成分分析法提取目标基础颜色特征,准确区分相似目标;同时引入自适应尺度因子,自动改变目标尺度,减少因尺度变化而引入的干扰信息,增强目标外观模型的鲁棒性。基于以上两点,在SPOT(structure preserving object trackin