【摘 要】
:
随着互联网的发展,海量数据集聚起来形成大数据环境,数据挖掘也成为了研究的热点。数据挖掘中的模糊积分是一种优秀的信息融合工具,它在分类问题上有较多成功应用。然而,模糊
论文部分内容阅读
随着互联网的发展,海量数据集聚起来形成大数据环境,数据挖掘也成为了研究的热点。数据挖掘中的模糊积分是一种优秀的信息融合工具,它在分类问题上有较多成功应用。然而,模糊积分有着指数级的时间复杂度和空间复杂度,在大数据挖掘中难以适用。目前,已经有较多成熟的并行计算框架。一些传统的数据挖掘算法通过结合并行计算,提高了算法的效率和可用性。Spark是一个基于内存的分布式并行计算框架,具有良好的健壮性和扩展性。在数据挖掘迭代算法上,Spark比Hadoop MapReduce有更高的效率。稀疏存储在高维稀疏数据上有一定的应用,而模糊积分的组合特征值有较多的零值。鉴于此,本文提出一种基于Spark并行计算和稀疏存储的模糊积分算法,扩展了模糊积分在大数据挖掘中的应用,同时提出了基于模糊积分的组合和融合优化模型。本文的主要研究内容如下:(1)针对模糊积分算法的空间复杂度和时间复杂度问题,根据模糊积分求解组合特征值的过程,使用二进制累加器优化了算法流程,并引入稀疏存储和Spark并行计算技术,提出了并行稀疏的模糊积分算法,简称PSFI算法。由实验结果显示,在PSFI算法上稀疏存储压缩了存储空间,提高了存储效率和模型训练效率,并行计算大大缩短了计算时间,提高了运算速度。(2)针对Python语言的效率问题,引入Cython编程,并把算法打包成算法库,实现了更高效的PSFI算法。实验结果表明,本文提出的基于Cython的PSFI算法在效率上提高了40多倍。(3)针对数据挖掘模型调优问题,提出了PSFI算法和现有数据挖掘模型的组合优化模型,利用PSFI算法扩展现有模型的特征处理能力,寻找预测准确率更高的组合模型。经实验验证,本文提出的PSFI算法和Fisher判别、逻辑回归的组合模型,具有较高的预测准确率。(4)对PSFI算法在数据挖掘模型融合中的应用展开研究,利用模糊积分的信息融合优势,融合当前优秀的数据挖掘模型,寻找更好的模型融合方案。实验结果验证了PSFI算法融合Xgboost模型,在不平衡分类问题中有较优的效果。本文的工作首次把模糊积分算法扩展到分布式领域,解决了模糊积分单机运算的高复杂度问题,通过模拟实验,展示了模糊积分在数据挖掘中的应用潜力和优势,对基于模糊积分的数据挖掘研究具有推动意义和启发式价值。
其他文献
《蒙古源流》是萨冈彻辰的代表作,是十七世纪末蒙古史学史上一部伟大的史书之一。他从亲身经历和亲眼目睹的事实中找出了当时的蒙古衰弱的原因,并以“生死归宿世更换,昼夜交替是规律的”的真理来教育自己的后代。希望他们能够尊重真理,重视智慧,以知识为武器。要始终保持《明智的大臣即使受到排挤,始终会显露出自己的智慧/燃烧的油灯即使被打翻,火苗也会向上燃烧》的理念,即使是在艰苦的环境中也能够坚持下去。本文在前人的
科技与经济的发展推动了世界各国中等教育进步,中等教育再次聚焦精英与大众教育问题。英国文法学校几经波折的改革,终其根本是平衡精英教育与大众教育的发展,使教育朝向民主化与优质化方向发展。研究的主要对象为英国文法学校,以分析文法学校改革背景、进程、结果为主要内容。将英国文法学校与我国优质中学做比较研究,分析其差异,总结经验,在理论方面为我国优质中学提供思想指导,在实践中提供经验与技术引导。比较教育研究法
网络内容聚合服务,是指通过搜索引擎、数据挖掘、网络链接、转码等技术,将分散在网络空间的文件资源整合起来,使得网络用户能够通过一站式平台访问该文件资源的网络服务。聚合网站在获得商业成功的同时,也因其截取了被聚合网站的用户流量而遭到被聚合网站的抵制。自网络内容聚合服务产生以来,就伴随着一系列的法律纠纷。其中给最为典型的是对网络聚合服务中所使用的深层链接和转码技术是否侵犯信息网络传播权和复制权的纠纷。对
随着我国大规模的基建投资和工业化进程的加速推进,铝型材全行业的产量和消量迅猛增长,而我国也一跃成为世界上最大的铝型材生产基地和消费市场。经过长达近10年的高速增长,我国铝型材行业步入了新的发展阶段,并展现出了诸多新的发展趋势。目前我国铝加工工业处于大而不强、小而不精的状态,迫使国民经济和现代科学所需的一些高精尖铝型材仍然需要依靠国外进口。推动铝型材产业的发展一方面我们需要在工业领域深耕,另一方面我
目的:探讨CDCA7表达水平对人结直肠癌(CRC)的发生发展及生存预后的影响。方法:首先是从癌症基因组图谱(TCGA)数据库中结直肠癌/癌旁的数据收集,然后通过差异基因筛选出CDCA7在结直肠癌/癌旁组织中的差异性表达,随后在Pubmed、Mesh、KEGG、GO等数据库中挖掘CDCA7的功能和信号通路、科研热度、报道的关联疾病、调控关系、转录因子预测、在其他恶性肿瘤中的表达等方面的数据,随后在人
佩迪特是共和主义理论的重要代表人物,他的正义理论是一种具有多元视角的理论,结合了古典共和主义、社会民主主义与自由主义等思潮,这在全球资本主义和文化多元主义时代为分析政治和道德困境提供了一种强有力的解释框架。佩迪特正义理论从整体论个人主义的本体论出发,明晰人类生存的社会性与能动性,指涉以“无干涉自由”为核心价值的分配范式难以实现人类更为广泛的正义空间。佩迪特故援引共和主义传统中“自由人”的身份,借此
在科技发展和科学研究的整个发展过程中,学术论文成为了举足轻重的角色,学术论文不仅是知识共享和学术交流的主要载体,也是科学评价体系的关键(如成果、人才和机构评价等)。
日本作为东亚文化圈的一个重要文化区域,在不同时期,既深受佛教和道家思想的影响,也深受道家文化的影响,要研究日本的思想自然必然无法避免中国思想的影响。近世作为日本的“前近代”,是日本文化发展的关键时期,自进入近世以后,朱子学渐渐在官方意识形式形态中占据主导地位。但是,随着武士阶级生活的困难,幕府财政危机的加深,农民起义的频发,社会矛盾和社会危机日益加深,幕藩体制逐渐动摇,作为官学的朱子学地位也不再牢
决策在我们的生活中无处不在,在各个领域中都具有重要作用,而多属性决策又是决策问题中最重要的部分之一。现有的多属性决策大部分建立在决策者完全理性的基础之上,但是在现实生活中,由于决策环境的复杂性以及决策者对客观世界认识的有限性,决策者往往不能做到完全理性。TODIM方法是建立在前景理论基础之上的一种多属性决策方法,它能更好的考虑决策者的有限理性和决策偏好。然而经典的TODIM法的适用范围有限,只能解
印象主义对日常生活的关注贯穿了其理论与实践的各个环节,然而印象主义作为一种日常生活理论还尚未被提出。本文在文化哲学视阈下,尝试将印象主义的艺术实践、生活方式和思想方式视作一个整体,探索印象主义日常生活理论的建构。本文对印象主义日常生活理论的建构从三个层次展开:在艺术实践中,印象主义通过对光色理论的革新形成新的世界观并对现代日常生活进行了积极的回应;在生活方式上,印象主义力图通过对“瞬间”体验的追求