【摘 要】
:
21世纪信息化大数据时代的到来,数据已经成为了每个行业和领域不可缺少的组成部分,尤其是文本类型的数据。各个行业每天都在产生与使用数据,面对海量的数据,文本已经成为其无法替代的关键信息载体,与人类的生活密不可分,人们越来越清楚的意识到,只有从大量缺少完整规律性的表层信息数据中分析发现知识规律,挖掘出对社会发展有利用价值的深层数据规律,才能适应这个信息爆炸时代的发展要求。目前传统的数据挖掘算法,随着大
论文部分内容阅读
21世纪信息化大数据时代的到来,数据已经成为了每个行业和领域不可缺少的组成部分,尤其是文本类型的数据。各个行业每天都在产生与使用数据,面对海量的数据,文本已经成为其无法替代的关键信息载体,与人类的生活密不可分,人们越来越清楚的意识到,只有从大量缺少完整规律性的表层信息数据中分析发现知识规律,挖掘出对社会发展有利用价值的深层数据规律,才能适应这个信息爆炸时代的发展要求。目前传统的数据挖掘算法,随着大数据规模之庞大、结构之复杂,就显得力不从心。因此如何从海量未知的数据中高效地挖掘出有效价值的信息,并实际应用在文本聚类中,提高文本聚类的并行化程度和结果准确率,成为了当下研究探索的热点。随着Map Reduce等分布式计算模型的提出和聚类算法在文本数据上的广泛应用,通过对传统的密度聚类算法进行改进,并与分布式计算模型相结合,利用其集群计算能力,分布式同时处理数据,实现算法对大数据的并行化处理,并高效解决一些文本聚类的实际问题,已经成为了一个主要的研究方向。目前已提出的基于Map Reduce的并行聚类算法取得了较好的加速比,提高了一部分参数的寻优能力,并且具有了一定的并行化性能,也能更广泛地应用在文本挖掘上。但这些算法仍然存在着处理大数据集时伸缩困难、聚类精准率不高、并行性能较低等问题,并且当前大数据环境下的文本数据普遍具有高维和多样复杂的特点,导致算法应用在文本聚类上聚类结果较差,并行化效率不高。针对这些问题,本文主要从以下三个方面来改善并行密度聚类算法的目前所存在的问题:一是基于数据集的图形分布情况,设计自适应数据划分策略来加快邻域搜索。二是优化群智能算法的位置更新策略,利用优化后的群智能算法的优势来提升聚类结果的准确率。三是使用覆盖树索引存储结构结合Map Reduce框架,提升算法整体的并行性能。基于以上三个方面,在研究与分析密度聚类算法、Map Reduce计算框架以及智能优化算法等相关知识的基础上,并结合文本聚类的现状,本文提出一种基于分组和IGSA的并行密度聚类算法MR-GDBIGS(Density-based clustering algorithm based on groups and improve gravitational search)。首先在数据划分阶段,提出基于图形的GSP策略来划分数据,加速邻域搜索,有效避免了处理高维数据时伸缩困难的问题;其次在局部聚类阶段,提出基于PUF位置更新函数的重力搜索优化算法IGSA,并根据IGSA算法对局部聚类进行优化,获得聚类最优参数,克服了聚类算法参数寻优能力不佳的问题;最后在合并局部簇阶段,结合Map Reduce计算模型下,提出了基于覆盖树的局部簇合并策略MRCTMC,并行合并局部簇,生成最终聚类结果,提高了整体算法的并行化性能。同时MRGDBIGS算法应用在文本聚类上,解决当前文本聚类的并行化程度低和聚类效果不佳的问题。实验结果表明,MR-GDBIGS算法在处理大型高维数据集时的聚类精度更佳,并行聚类的效果更好,更能满足当前大数据时代的数据分析挖掘要求,且为加速文本聚类发展提供了新的方向。
其他文献
目的:探究抗角质蛋白抗体(AKA)、抗环瓜氨酸肽抗体(CCP)、血清类风湿因子(RF)联合检测对类风湿关节炎(RA)的诊断价值。方法:回顾性分析、收集2018年6月-2021年12月抚州市中医院接收的45例确诊为RA患者病历资料,另收集同期抚州市中医院接收的45例确诊为非RA自身免疫疾病患者病历资料,通过查阅资料,患者入院时均在抚州市中医院接受AKA、CCP、血清RF检测,分析AKA、CCP、血清
目的:观察纳布啡预防性镇痛对下肢骨科手术术后患者疼痛和血流动力学的影响。方法:选取2021年1月至2022年5月在徐州医科大学附属淮安医院择期行下肢骨科手术的患者116例,按随机数字表法将患者分为对照组(NS组)、纳布啡低剂量组(0.1 mg/kg,N1组)、纳布啡中剂量组(0.2 mg/kg,N2组)、纳布啡高剂量组(0.3 mg/kg,N3组),每组29例。所有患者均在蛛网膜下腔阻滞麻醉下进行
作为外语教学的重要组成部分,写作发挥着重要的育人功能。针对当前写作教学存在的割裂化、套路化、浅表化等问题,本文提出从单元整体教学视角下设计和实施写作教学的理念和实践策略,并结合教学案例,阐述了基于这些理念和策略的实践运用。
目的 探讨菖蒲郁金汤治疗儿童抽动-秽语综合征(Tourette syndrome,TS)的可能作用机制。方法120只SD幼龄大鼠随机分为空白组(30只)和造模组(90只),造模组采用亚氨基二丙腈(IDPN)进行造模,造模成功后,再次随机分为模型组、硫必利组、菖蒲郁金汤组,每组30只。硫必利组给予硫必利药液(3.194 mg/mL)、菖蒲郁金汤组予以菖蒲郁金汤药液(5.152 g/mL)、空白组和模
互联网的快速发展带来了海量的文本数据,结合神经网络对这些文本数据进行文本聚类以获得有价值的信息越来越受到人们的重视,深度文本聚类已然成为当前研究的热点。然而,现实中文本的构成只使用到部分关键词且每篇文本使用的关键词不尽相同,所以会出现文本的语义信息不完整的情况,给深度文本聚类增加了额外的困难。针对上述问题,本文基于增强语义聚焦文本聚类的研究,提出了增强语义信息的深度变分文本聚类模型(SEVAE)和
住宅建筑装饰装修工程是提高建筑工程整体建设质量的关键内容,也是满足人们对建筑工程美观的重要一环。在住宅建筑装饰装修工程中,需要把握好施工技术要点,加大对施工质量的控制与管理力度,进一步提高住宅建筑装饰装修工程的质量。基于此,为进一步提升住宅建筑装饰装修工程建设效果,提高人们对住宅建筑装饰装修工程的满意度,文章主要分析了住宅建筑装饰装修工程施工技术的相关内容,分析了施工技术要点。
针对传统图像分割方法分割效率低下,遥感图像特征复杂多样,复杂场景下分割性能受到限制等问题,在基于U-Net网络架构的基础上,提出一种能够较好提取遥感图像特征并兼顾效率的改进U-Net模型.首先,以EfficientNetV2作为U-Net的编码网络,增强特征提取能力,提高训练和推理效率,然后在解码部分使用卷积结构重参数化方法并结合通道注意力机制,几乎不增加推理时间的前提下提升网络性能,最后结合多尺
乡村旅游是以开发和利用乡村旅游特色资源为根本目的的文化活动。当前,随着乡村旅游产业的快速发展,乡村经济呈现出新的发展模式。在这种经济模式下,不仅农民的收入水平得到提升,而且农民的生活质量也得到提高,甚至引才返乡,增强了地区活力,为农村的又好又快发展注入了更多更新的动力。现阶段,国内学术界对于乡村旅游业的发展进行了大量研究,但大多描述了试点示范地区的实际经验和成果,很少有学者关注乡村旅游发展相对落后
英模精神实质是公共精神。英模精神的爱国情怀提升公民的国家信任度。以英模爱国情怀引领社会的公共信任建设要做到爱党、爱人民与爱社会主义的统一。英模精神的敬业奉献提升公民的职业认同度。以英模敬业奉献引领社会的公共信任建设要做到做一行、爱一行,知行合一,体现民族情怀、家国意识与服务群众。英模精神的诚实守信提升公民的道德承认度。以英模的诚信精神引领社会的公共信任建设要做到对职业的诚信,对荣誉的诚信,对党、国