【摘 要】
:
随着大数据的快速发展,离群挖掘作为数据挖掘中的一个重要研究分支,在众多场景中发挥着至关重要的作用,可以帮助我们发现许多有价值的知识和异常模式。深度森林算法能够有效的对数据集中不同类型的数据进行挖掘,但在算法中存在子树特征随机选择性较大,数据特征中存在的无关属性可能影响算法性能,算法的时间复杂度较高的问题。因此,本课题针对该算法存在的问题,采用权重因子、简单随机抽样等思想进行离群挖掘的研究,主要成果
【基金项目】
:
国家基金委天文联合基金项目:LAMOST叠加目标天体光谱搜寻与分析认证(U1731126);
论文部分内容阅读
随着大数据的快速发展,离群挖掘作为数据挖掘中的一个重要研究分支,在众多场景中发挥着至关重要的作用,可以帮助我们发现许多有价值的知识和异常模式。深度森林算法能够有效的对数据集中不同类型的数据进行挖掘,但在算法中存在子树特征随机选择性较大,数据特征中存在的无关属性可能影响算法性能,算法的时间复杂度较高的问题。因此,本课题针对该算法存在的问题,采用权重因子、简单随机抽样等思想进行离群挖掘的研究,主要成果如下:(1)基于加权深度森林的离群数据挖掘算法(WDF)。针对深度森林子树特征选择的随机性问题,给出了一种加权深度森林的构造方法,并将其应用到离群点检测中。首先,通过森林的预测概率定义权重因子μ,描述当前层森林准确率大小。其次,把权重因子μ作为级联层中每个森林的权重,从而降低森林中根节点特征的随机选择对算法性能的影响;根据数据样本分布的不同,重新定义了局部孤立因子α,描述数据离群程度大小。在此基础上,给出了基于加权深度森林的离群数据挖掘算法。最后通过实验验证结果表明,该算法与同类算法相比在离群点挖掘方面具有更高的挖掘质量。(2)基于多次抽样的加权深度森林快速离群数据挖掘算法(FWDF)。针对深度森林算法利用滑动窗口进行数据转换中特征重复性较大的问题,给出了一种基于多次抽样的加权深度森林快速构造方法,并将其应用到离群点检测中。首先,在多粒度扫描中根据窗口大小从输入特征中随机选择,再使用二次抽样对数据实例进行抽取,由此给出了一种深度森林快速构造方法(FDF)。其次,将FDF算法集成到WDF算法中,对离群数据进行检测。在此基础上,给出了基于多次抽样的加权深度森林快速离群数据挖掘算法,实验表明该算法与WDF算法相比具有较高的挖掘效率。(3)实现了面向恒星光谱的离群数据挖掘原型系统。该系统在windows 7开发环境下,以python为开发语言,实现了特征选择、缺失值处理、特征加权等预处理功能,以及FWDF算法的离群检测、结果可视化等功能。最后通过用例测试结果表明该系统是可行的,为特定背景下探索未知、稀有目标提供了一种有效途径。
其他文献
厚板在轧制生产过程中厚度方向上的不均匀变形问题是影响其综合性能的主要因素之一。由于轧机开口度和连铸坯尺寸的限制,提高总压下率的方式难以满足生产需求,无法获得心部性能优良的厚板。蛇形/差温协同轧制综合了蛇形轧制和差温轧制在提高变形均匀性和改善板形方面的优点,为实现厚板的近均匀变形提供了新的思路。轧制力作为指导设备选型与实际生产过程的关键工艺参数,其模型的建立具有十分重要的研究意义与工业转化价值。蛇形
近年来,场景文本检测成为计算机视觉领域的重要分支。但由于场景文本的复杂多样性,现有算法存在漏检、误检和检测精度不高等问题。因此,本文通过对深度神经网络进行创新来提高场景文本检测的性能。本文主要研究工作及成果概括如下:(1)在多尺度场景文本检测方面,针对场景文本检测领域存在文本尺寸波动较大导致的小文本漏检、大文本欠检测和多尺度文本边界检测错误的情况,提出了基于学习主动中心轮廓模型的场景文本检测网络。
防爆无轨胶轮车是我国煤矿运输的主要辅助运输设备,因其使用环境的高危性,所以安装安全监测装置十分必要。通过对目前我国现有安全监测装置进行综合分析,并根据相关行业标准中矿下防爆无轨胶轮车防爆要求及自动保护数据要求,提出一种基于CAN总线的安全监测装置,以保证矿下防爆无轨胶轮车在矿下爆炸性气体环境中的工作安全,提高煤炭运输效率。目前的安全系统监测参数较单一,本文根据防爆无轨胶轮车的通用技术条件与电气防爆
作为液压系统的供能元件,由于高效率、高功率密度以及变量控制性能好等特点,轴向柱塞泵在众多工业、工程领域被广泛应用。在工业飞速发展的背景下,液压传动的应用愈发多元化和极端化,现代工业要求液压传动设备多工作在高压和高温、高加速度、高真空或负压等环境中,对可靠性和寿命指标日益苛刻,传统轴向柱塞泵在功率密度、工作可靠性等方面面临着巨大的考验。为了从结构层面提高柱塞泵的可靠性和寿命,本文系统分析了各型柱塞泵
随着“中国制造2025”战略的全面实施,中国的装备制造业不断腾飞,随之而来的就是装备的高端化、智能化,起重机械作为其重要的组成部分不可缺席。回顾中国的工业发展历程,起重机作为“巨人”已经替代人工服役多年。自从机械设备的出现开始,疲劳问题一直伴随左右。由机械故障引发的机械事故层出不穷,每年国内外的起重机事故频发并且呈现不断攀升的趋势,通用桥式起重机事故占比是最大的。焊接金属桥架是通用桥式起重机主要的
工程车辆常在“非路面”下行驶、工作,会受到不同方向的剧烈振动,致使驾驶员的身心健康受到严重威胁,工作效率以及操作稳定性也会进一步受到影响。鉴于目前大多数工程车辆座椅悬架只可实现垂直方向减振要求,本文设计了一种基于磁流变阻尼器的并联半主动座椅悬架,达到多维减振需求。具体工作如下:(1)基于并联结构理论,提出一种由多种运动副以及多条运动支链相配合组成的2SPS+SR并联减振座椅悬架,在UG三维软件中建
城市天然气管道系统是维持城市正常运行,保证城市经济高速发展的市政基础设施系统之一,贯穿于现代城市的各个角落,被形象的喻为现代工业与城市的大动脉。管道受到外界荷载影响易产生振动、变形和失稳,严重时会发生泄露、爆炸等次生事故,造成巨大的经济损失和人员伤亡。为保证天然气管道系统安全运行,对其进行振动特性及动响应分析是十分必要的。本文以城市天然气管道为研究对象,采用理论分析和数值模拟的方法,分别对天然气管
本文以AZ91-RE-xCu(x=0,1,2,3,4 wt%)合金为研究对象,通过热挤压和热处理制备了一系列具有不同铜含量的AZ91-RE合金。通过OM、SEM、EDS研究了铸态、挤压态、热处理态的AZ91-RE-xCu合金的组织演变。采用电子万能试验机研究了铸态、挤压态、热处理态的AZ91-RE-xCu合金的力学性能。采用析氢浸泡实验、失重实验以及电化学测试研究了铸态、挤压态、热处理态的AZ91
近年来,随着我国电子科学技术的进步,机器人的研究与应用场景越来越广,与之相关的技术在国内外机器人领域引入了探索的热潮。在未知环境下的即时定位与地图构建和路径规划则成为机器人技术探索和发展的热点。本项目针对AGV系统,开展基于ROS系统下AGV的SLAM和路径规划相关内容的探索与了解,具体包括整个系统的实现,从模型选材设计到驱动板电路设计、小车控制算法、SLAM算法和路径规划算法的软件实现,针对实时
化石能源的过度开发和利用对人类的生存环境已经造成了很大的影响,然而人类对于能源的需求却在不断增长。尽管锂离子电池已经实现了重大进步,然而在实际使用中仍然面临循环稳定性差和能量密度低的挑战。锂硫电池由于其突出的能量(2600Wh·kg-1)和容量密度(1675 m Ah·g-1)被看作是接下来最具有发展前途的二次电池。但是,导电性差以及反应过程中存在“穿梭效应”等问题成为锂硫电池进行量的妨碍因素。本