基于机器学习的即时软件缺陷预测研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:ghanfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技产业的发展,软件产品被广泛地应用于人类活动。软件产品在人类生活中扮演的角色越重要,意味着软件缺陷的存在对人类生活造成的危害就越严重。软件缺陷预测可以帮助测试人员有效地识别缺陷和合理地分配测试资源。即时软件缺陷预测是软件缺陷预测的新思路,以软件研发人员每次提交的代码变更为对象,对变更是否引入缺陷进行预测。即时软件缺陷技术根据预测过程中是否进行模型更新分为离线和在线两个场景,在线场景中模型进行动态更新,离线场景中模型不进行动态更新。即时软件缺陷预测数据集存在类不平衡问题,同时由于不完善的标签标记算法数据集还存在噪声,这给模型的构建带来负面影响。而在线场景中,软件研发前期训练样本不足,同时数据存在标签延迟标记问题。本文针对上述问题,围绕即时软件缺陷预测展开研究,具体内容包括:(1)针对离线场景中数据集存在的噪声以及类不平衡问题,提出了结合噪声滤波的重采样集成方法(Undersampling Ensemble combined with Noise Filtering,UENF),以较小的代价提高预测模型对引入缺陷变更的预测能力。该方法根据同类数据聚合的特性,为数据划分安全区、模糊区和危险区。首先设计噪声滤波器,根据领域特性,对危险区的两类变更设计对应的噪声滤波策略;然后设计重采样集成方法,为模糊区变更设计欠采样策略,并使用集成学习进一步解决数据集的类不平衡问题。实验从消融和对比两个角度对UENF方法的有效性进行验证。实验结果证明,UENF方法提高了对引入缺陷变更的识别能力,同时在综合指标F1-measure上也表现优异。(2)针对在线场景中数据集存在的训练样本不足以及数据标签延迟标记问题,提出一个在线跨项目即时软件缺陷预测方法(Update Strategy for Cross-Project,USCP),以此提高在线预测模型对缺陷变更的预测能力。该方法首先设计一个延迟标记策略,为项目内数据设置观察队列和静置队列,为模型提供可靠数据;然后提出一个结合项目内和跨项目数据的在线模型更新方法,通过设置了滑动窗口的项目内训练数据流筛选跨项目训练数据,同时使用跨项目和项目内数据更新预测模型。实验结果表明,USCP方法在软件开发初期两类变更的召回率都有较大的优势,同时在软件的整个生命周期中,USCP方法对学习模型也表现较好。
其他文献
近年来,类别可控的古诗生成式学习技术渐渐成为了前沿研究热点。诗歌智能生成技术在生成式预训练模型的基础上引入规划机制,成功实现对生成诗歌的自主可控。自主可控能力弱、存储成本高、格式限制严格是当前诗歌文本智能生成亟待解决的主要难题。针对给用户分发特定主题词的规划,会造成类别不平衡的问题;针对模型在小样本下生成与主题词相适的古典诗歌的规划,虽然语料成本降低,但训练、测试时参数存储成本过高;针对模型生成满
学位
随着信息技术的不断发展,数字化改革已逐渐成为提高企业效能的重要举措。业务流程作为数字化转型的重要载体,目前已在办公自动化、制造工艺、应急救援、金融保险等领域被广泛应用。现如今,越来越多的企业根据自身的业务规则都建立了服务企业运营生产的流程管理系统,并且这些系统每时每刻都产生着大量的日志数据。通过分析这些数据可以为企业业务优化、管理决策等提供有效支持。例如,通过分析日志数据预测正在执行的流程实例的结
学位
高校仪式是学校制度设计、氛围营造、活动体验的集合体,而非简单的规范或创新话题。作为思想政治教育的载体,它还具有承载和传递理想信念和价值追求的功能。如何通过仪式开展思想政治教育?参与者对仪式设计、氛围与活动产生了何种反应?这样的反应与仪式教育所承载和传递的理想信念和价值追求是否相匹配?围绕这三个问题,本研究从主体参与的角度切入,以马克思原理的认识论、思想政治教育的方法论、柯林斯的互动仪式链理论为指导
学位
伴随着互联网技术的持续发展,物流运输业正处于高速发展的阶段,而仓储行业作为物流运输业中的一个重要组成环节,也愈发受到重视。目前部分仓储系统的信息易篡改、流程不透明、中心化严重、缺乏信任等问题逐渐暴露在人们面前,不断消耗着人们对仓储系统的信任度,如何提高仓储系统的安全可信性和货物溯源的能力,已经成为行业内亟需解决的问题。区块链技术作为一种新技术,具备去中心化、可信任、透明公开等天然特性,让其在仓储领
学位
学位
推荐系统通过分析用户的兴趣爱好,从互联网的海量信息中挖掘用户可能感兴趣或需要的信息资源或物品,从而为用户做出相应的推荐。目前主流推荐方法对于数据密集型任务有很好的推荐效果,但在某些实际场景中,因收集成本较高等原因而难以获得足够的数据,不充足的样本易导致过拟合、模型表达能力不足等问题,进而影响推荐效果。因此,需要研究基于小样本数据的推荐方法以缓解数据有效样本不足的问题。目前小样本学习已用于解决机器学
学位
血管性痴呆(vascular dementia,VD)一病复杂多变,虚实夹杂。伴随我国人口老龄化,血管性痴呆这一疾病已成为中老年人群的常见问题之一。中医治疗血管性痴呆既着眼于整体,又侧重于局部病情变化,达到辨证合一的目的。近年来,国内外对VD的发展现状、病因病机、辨证分型及中药治疗等方面进行了大量的研究,本文对此进行论述。
期刊
随着可编程逻辑控制器(Programmable Logic Controller,PLC)功能的不断拓展,涌现了各种各样特殊的功能块。在使用这些功能块编程时,开发者难以设置合适的程序运行周期,而运行周期决定了实际场景下任务是否有序执行。为了解决这个问题,需要事先预测功能块执行时间。但目前现有方法存在局限性,只能够针对其中一部分功能块进行预测。因此,本文结合机器学习提出了基于特征的功能块时间预测方法
学位
步态是人行走时的一种姿态,也是下肢最基本的运动特征。由于表面肌电信号(sEMG)中蕴涵着丰富的运动信息,可用来区分人下肢运动时动作的各个阶段,因此利用sEMG信号对不同的动作进行分类识别得到了广泛的研究。本文主要从五个方面进行研究,即在表面肌电数据采集、信号消噪处理和特征提取的基础上,分别采用DNN算法和CNN-LSTM算法,进行步态优化算法识别。以下是本文的主要研究工作和创新点:(1)sEMG信
学位
信息时代的来临,给人们的工作方式和工作方式提供了新的可能性和途径,也促进了人们的工作观念和工作方式的更新和转变,使社会得到了巨大的发展,教育作为一个重要的前沿学科,也需要不断地更新、完善和升级,才可以培养出符合时代需求的专业性人才,而在所有的教育专业当中,会计专业具有一定的特殊性,首先会计专业是公司的财务人员,对人员的要求比较高,其次,中职教育是一种特殊的职业,中职学生的知识储备要比高职院校的学生
会议