【摘 要】
:
异常检测作为数据挖掘技术非常重要的研究分支,它的本质思想是挖掘与大部分对象有显著差异的对象。随着大数据时代的到来,各个行业产生了大量数据,这些数据中往往存在异常,而异常通常蕴含了更多有价值的信息。以往数据中的异常都是由各个领域的行业专家进行标注,需要大量精力和经验,准确的标注异常难度很大,而无监督的异常检测不需要对数据预先标注。由此可见该类异常检测方法更具有研究意义。针对这一问题,本文围绕着数据挖
论文部分内容阅读
异常检测作为数据挖掘技术非常重要的研究分支,它的本质思想是挖掘与大部分对象有显著差异的对象。随着大数据时代的到来,各个行业产生了大量数据,这些数据中往往存在异常,而异常通常蕴含了更多有价值的信息。以往数据中的异常都是由各个领域的行业专家进行标注,需要大量精力和经验,准确的标注异常难度很大,而无监督的异常检测不需要对数据预先标注。由此可见该类异常检测方法更具有研究意义。针对这一问题,本文围绕着数据挖掘的两个主要技术——聚类和异常检测展开研究,主要工作包括:1.为了解决边缘点(包括异常点和错分其他簇的边缘点)影响传统K-means聚类划分的问题,提出了一种改进的K-means算法。该算法通过簇中数据点到该质心的距离分布获得的局部域值自适应地检测边缘点,在聚类过程中忽略边缘点,避免边缘点对聚类结果产生影响。基于上述算法,提出了一种基于改进的K-means算法的异常检测方法,该方法将每个簇中距离质心最远的点移入异常簇,这时正常簇会更加紧实、异常簇会更加松散,当所有簇达到稳定状态时算法停止,得到检测出的异常。该方法保留了传统K-means的易用性,减少了聚类迭代次数,并能够准确地检测出数据集中的异常点。实验结果表明,该算法达到了预期效果,能有效地检测出异常点,在多个数据集上有良好的效果。2.为了解决传统K-means算法在非凸形状数据集上不适用的问题,将上章改进的K-means聚类算法与AGNES(AGglomerative NESting)聚类算法的思想相结合,设计了一种混合聚类算法。该混合算法解决了传统K-means算法在非凸形状数据集不适用的问题,并缓解了AGNES算法计算量大的问题。为了解决传统K-means算法如何选择k值的问题,本文在AGNES算法合并簇的同时使用DAS(Difference of Average Synthesis Degree)指标,对每次的簇划分进行评估,避免了算法中需要预先设置簇数的问题。在此基础上,提出了一种基于改进的K-means算法和AGNES算法的混合聚类算法的异常检测方法,该方法先将数据点个数极少的簇认为是异常簇,缓解了将异常点选做初始中心的问题,然后对正常簇的数据点计算局部异常得分,使异常检测方法在非凸形状数据集中更适用。实验结果表明,该算法能够很好地适应多种形状的数据集,其性能相对稳定。
其他文献
随着大数据时代的到来,海量具有一定拓扑结构的非规则网络数据不断涌现,如社交网络、交通网络等。在实际应用中,传感器通常由于存储空间受限、工作环境恶劣以及计算能力有限而无法稳定工作,导致传感器网络所采集的数据出现异常、缺失等情况。并且,随着传感器的广泛运用,其以数据为中心的特点也逐渐凸显,能否有效地从网络数据中捕获有用信息是评估其应用成功与否的关键因素。因此,网络数据的异常检测问题是当下的研究重点。现
凝胶性作为植物蛋白重要的功能特性之一,对改善食品加工品质具有重要影响。但多数植物蛋白凝胶对pH、温度和离子强度等环境因素敏感,导致其凝胶制品存在黏结性不强、纹理结构差、成品率低等问题,在食品加工中的应用受到限制。亲水胶体具有较好的凝胶性、增稠性和稳定性,利用亲水胶体对植物蛋白凝胶进行改性,日益受到广泛关注。本文综述了植物蛋白和亲水胶体的凝胶机制,离子型、非离子型亲水胶体、复配亲水胶体与植物蛋白共混
美术课程能够提升幼师的审美能力,高职幼师美术课程的开展对幼师人才培养具有重要的意义。我国很多非物质文化遗产作为优秀的传统文化有着较高的艺术价值,以蓝印花布为例,对非物质文化遗产在高职幼师美术课程中的实践进行了研究,主要从蓝印花布在简笔画、设计与工艺、美术作品欣赏、幼儿美术教育理论与实践、纸艺中的应用进行了简单分析,为蓝印花布等非物质文化遗产和美术课程融合提供参考,也为提升高职幼师审美能力提供一条切
<正>单元是平时教师进行教学的基本单位,初中英语教材的单元中的各部分组成关系更加密切,建立了一个有机的单元整体,要求教师立足于单元整体化的视角,组织英语教学活动,能够引领学生站在单元整体的视角下,挖掘出单元的主题意义,进而发展学生的英语学科素养。《普通英语课程标准(2017年版)》也强调语篇是语言学习的主要载体,学生在平时的学习中,应在语篇中接触、理解、学习和使用语言。因此,学生学习语言应以语篇为
<正>我国是人口大国,保障粮食的稳定生产和有效供给是中国农业政策的目标之一。生物种业是国家战略性、基础性核心产业,是保障国家粮食安全的根本。“十四五”规划和2035年远景目标明确提出强化国家战略科技力量,瞄准生物育种领域等前沿领域实施一批具有前瞻性、战略性的国家重大科技项目。培育高产、优质且抗生物非生物胁迫性强的作物品种是育种者普遍追求的育种目标,传统育种方法周期长、针对性差、难以实现快速育种的目
<正>作为中华优秀传统文化的重要组成部分,中医药古籍在我国中医药事业的不断创新与发展过程中发挥着巨大作用。四川省图书馆馆藏《石室秘录》正是这样一本蕴含着先贤的思想与智慧、藏有丰富临床实践经验的中医药古籍,具有极高的学术水平和研究价值。一、版本及主要内容《石室秘录》是明末清初的著名医家陈士铎的代表性著作。陈士铎一生著述颇多,但今存世的仅六种,《石室秘录》就是其代表作之一。陈士铎从小勤奋好学,后因仕途
在具体实施中,可根据英语教学基本要求和内容创设情境,保证情境和学生情况有较高契合度,满足教学需求。互动性和趣味性强的情境能激发学生课堂积极性,并吸引学生注意力。所以教师设计情景时应注重其模拟性和互动性。小学生年龄较小,形象思维明显,想象力丰富,注意力持续时间较短。
为研究飞行员的疲劳影响因素及其作用机理,分析各影响因素之间的区别与联系,首先建立了飞行员疲劳影响因素的研究假设,然后对国内120名飞行员进行信息采集与量表测试,通过Amos 24.0软件建立结构方程模型(Structural Equation Modeling, SEM),对假设路径的路径系数及其显著性进行估计,最后使用Bootstrap法检验了影响因素的中介效应。结果表明:飞行员的睡眠情况、心理
针对边坡生态防护所采用的稻秸秆加筋土,通过崩解试验研究不同加筋率与含水率对加筋土崩解特性的影响规律。试验采用烘干的方法改变6种加筋(稻秸秆)率(加筋率为:0~0.5%)试样的含水率,然后进行崩解试验。结果表明:①试样的崩解量和崩解速率与试样的初始含水率和稻秸秆掺加比例有关,试样的崩解量和崩解速率随着试样的初始含水率的降低而增加;②初始含水率对试样的崩解性起决定性影响,稻秸秆掺加比例对试样崩解现象影
本文研究了不同外源茉莉酸(JA50:50μmol/L,JA100:100μmol/L)对不同浓度硒酸钠(Se4:4mg/kg Se6+,Se10:10mg/kg Se6+)处理土壤条件下小白菜(Brassica chinensis L.)耐硒性和硒积累量的影响。结果表明,土壤富硒处理显著降低小白菜PSII的光化学反应能力并引起强烈的细胞过氧化反应,显著降低地上部生物积累量。JA100处理显著提高了