机器学习中样本筛选方法的研究与应用

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:sunshine123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随科技的发展,信息浪潮扑面而来。人们每天聊天、微博、视频、邮件等会产生大量数据信息。这些数据中包含了大量有极高价值的信息。处理这些规模庞大的数据对现有的分析方法和工具来说是巨大的挑战。处理这些数据问题的数据挖掘技术就成了热门的研究方向。随着研究的深入,数据挖掘技术也出现了许多具体的分支,机器学习是其中最热门的分支之一。随着机器学习技术和理论的发展,利用这些机器学习算法进行数据分析的方案已经成功应用于某些特定领域,例如车牌识别、网络攻击防范、手写字符识别、面部识别、信息检索、社会网络和疾病诊断等。但是为了分析数据问题,机器学习方法通常需要大量的数据集进行训练,来发掘其中的规律,并建立模型,再使用模型对未知数据进行预测分析。尽管在训练算法的优化方面有大量的突破,机器学习方法仍然会受到庞大的训练集的困扰,最直接的结果就是模型训练时间漫长。同时这些未经处理的庞大训练集常常包含大量冗余数据和离群数据。这些多余数据是那些对机器学习训练中非关键数据点,它们会占用大量计算资源,使机器学习模型训练过程耗时极长,甚至会影响最终模型的精度。为了解决这些数据的质量问题,本文研究了现有的样本缩减算法和离群点检测算法。并提出了新的样本缩减策略和改进的离群点检测方法。为了解决数据规模过大的问题,本文提出了壳状数据选择算法进行样本筛选。该算法利用数据集分布并非绝对均匀,在不断迭代中删除靠近数据集中心向量的的数据点。这样可以近乎完整的保存分布在样本集的壳形区中的非冗余数据点。在几乎不降低训练后模型精度的前提下,实现了减小训练集规模的目标。然后本文结合壳状数据选择算法提出了一种改进的离群点检测策略。由于许多传统的检测方法较复杂,无法直接适用于大规模数据集。同时通过分析不难发现整个数据集中大部分都是非离群点,因此传统的离群点算法浪费了大部分时间在遍历非离群点上。为了减少非离群点的遍历改进的离群点算法首先采用壳状数据选择算法将大部分非离群点删去,然后使用二分划分算法将缩减后的数据集划分成多个子区域,再对子区域排序并使用kNN算法来进行离群点分析。这样不仅保留了原有的基于近邻的异常点检测方法的效果,也大大提高了孤立数据检测的效率。
其他文献
21世纪,随着人类进入大数据、信息化时代,多媒体应用越来越广泛。特别是网络音视频和流媒体技术已经大范围融入到了人们的生活当中,这给网络实时视频的压缩和发送任务提出了
实时动态调度是一个实用而有趣的课题。例如,在飞行控制系统中,测高任务的运行周期可以是动态的,飞行高度越低采样率越高。类似地,在机器人目标逼近测量场合,机器人越接近目
摘要:近年来,人们越来越多地关注数据集中数据点之问的关系。不同种类的网络相继涌现。有链接和节点类型都单一的同质网络如以朋友友谊为基础建立起来的社交网站;以网络链接形
近年来,我国的汽车保有量迅速增加,交通事故发生率居高不下,给人民的生命和财产造成了巨大的损失,交通安全问题已日益成为一个严重的社会问题。驾驶员疲劳和注意力分散是引发
本体——共享概念化的明确的形式化规范的模型,自提出以来就成为研究的热点,并在知识工程、信息检索、Web异构信息处理和语义Web等方面得到了广泛的应用。在领域本体的建模过程
植物仿真一直是计算机图形学研究的热点和难点。近年来,植物形态的多样性吸引了越来越多的研究者,水下场景也以复杂和奇妙的视觉效果吸引了越来越多的关注。水草作为一种水生
随着社会气象日新月异,科技发展突飞猛进,人们对生活的舒适度有了更高的要求。在此背景下,汽车变成了人们出行代步的必备交通工具。但是,汽车的普及尽管可以使人们的生活舒适
双目立体视觉技术是根据两幅不同角度拍摄的图像,获取图像中物体三维几何信息的技术。该技术近年来发展迅速,在军事和民事的各个领域都得到了广泛的应用。图像匹配技术又是双
运动目标检测是目标识别、分类和行为分析与理解的前提,是计算机视觉领域基础研究内容之一,广泛应用于智能视频监控、人机交互、军事应用等领域。运动目标检测存在如阴影去除和
虹膜识别作为新世纪最具研究价值和发展潜力的生物特征识别技术之一,有着其它生物特征识别技术无法比拟的高准确率、高稳定性、高防伪性以及非接触性等优点,其可广泛应用于机场