跨项目软件缺陷预测中数据预处理与集成预测方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:sunapi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,用户对软件质量提出了更高的要求。而软件缺陷会影响软件质量,因此,越来越多的研究者开始研究软件缺陷预测技术。由于某些新的项目的历史缺陷信息有限,使用自身的历史信息预测新的模块存在很大的难度,因此,跨项目软件缺陷预测的研究很有必要。跨项目软件缺陷预测是由一个或儿个项目构建模型,然后应用于其他项目。由于不同项目的数据存在很大差异,而且不同的分类器模型具有不同的分类效果,因此,数据预处理以及模型构建都是需要深入研究的问题。在本文中,研究了数据预处理、分类器改进以及集成模型的问题,并在NASA数据集以及五个开源软件数据集上进行实验验证。本文的贡献主要在三个方面:(1)由于特征冗余以及不同项目数据差异过大的问题,本文提出了包含特征选择及基线转换的两阶段特征变换方法,既可以减少冗余特征,又可以缩小不同项目样本特征值之间的分布差异。该方法主要分为两步,第一步是通过特征聚类及特征筛选从而筛选出优秀的特征子集;第一步是提出改进的基线转换方法对特征子集进行变换,以缩小不同项目特征值之间的分布的分布差异,使不同项目特征值处于同一数量级下,从而提升预测性能。(2)考虑到训练集与测试集相似度不同对预测性能带来的不同影响,本文在朴素贝叶斯分类器的基础上,提出计算训练集样本与测试集样本之间相似度的方法,根据相似度为训练样本加权,能够有效提高与测试集相似性更高的训练集样本的权重。并在此基础上建立加权朴素贝叶斯分类器。因为与测试集更相似的样本能够获得更高的权重,因此能够提升预测性能。(3)由于不同的分类器可以识别不同的缺陷子集,为了使跨项目软件缺陷预测模型能够识别更多的缺陷,本文采用Stacking集成方法,将多个异质基分类器进行集成,从而保证基分类器的多样性。并且,本文将提出的特征变换方法以及加权朴素贝叶斯方法应用到Stacking集成模型中,构建了基于特征变换的集成跨项目软件缺陷预测模型。
其他文献
盈余管理在我国上市公司中比较常见。随着独立审计制度的完善以及“风险导向”审计模式的运用,注册会计师的风险意识日益增强,对上市公司的盈余管理行为更加重视。当上市公司的盈余管理程度超过审计重要性时,注册会计师为将审计风险降低至可接受的低水平会发表非标准审计意见以避免严厉的处罚。根据Francis和Krishnan(1999)[32]的分析,会计盈余的不确定性对注册会计师而言难以把握。注册会计师出于审慎
如今,巨大的能源需求以及化石能源消耗带来的环境问题已经成为制约社会发展的主要因素,可再生能源发电成为解决这一问题的关键。然而可再生能源发电的不确定性导致电力系统稳
电解加工作为一种特殊的加工方法,在生产制造中有着非常重要的价值。电解加工的过程大多需要在密封的加工腔内完成,此时加工腔的密封性对工件加工的精度有着较大的影响,此过程中,作为密封的关键部位,电解加工夹具的轴封设计好坏又在较大程度影响了加工腔的密封性好坏,需要为电解加工夹具选择和设计合理轴封装置并提高其密封性。基于结构优化分析理论,对所设计的轴封装置的重要受力部件法兰进行尺寸优化,优化效果明显;开展3
随着全球环境污染问题的日益严重,减少化石能源的使用和降低温室气体排放已成为现今亟待解决的难题。现代工业对产品的功率密度、功能性以及服役条件提出了更严苛的需求,其中铝基复合材料由于密度低,比强度高、比刚度大和良好的耐磨性等优点,已被广泛应用于航空航天、汽车制造等领域。石墨烯是由碳原子经SP2轨道杂化后形成的二维碳纳米材料,其理化性能优异,是研究发现的一种理想的增强相,然而目前关于石墨烯铝基复合材料的
随着“大众创新,万众创业”时代的来临,社会进入自主创业的浪潮。由于旅游业灵活、多元、可进入性门槛相对较低、依附性和带动性强等特点,使得旅游业成为创业者们首选的行业之一。旅游小微企业的形式为社会草根阶层创造了一个逐步成为企业家的“就业过渡途径”,也为国民经济的增长和就业岗位的增加做出了重要贡献。在旅游小企业中企业家占据了核心地位,企业的成长往往取决于企业家是否拥有成长意愿。基于此,本文聚焦旅游小企业
全球化市场竞争日益加剧,制造业作为国民经济的支柱性产业正面临着严峻的挑战:如何在保证产品质量的同时,高效、准确地满足客户需求。车间调度方法是通过合理分配企业资源、提高效率和降低成本的重要途径。因此,结合当代制造业遇到的问题开展车间调度方法的理论研究与应用具有重要的意义。本文主要针对电容器生产车间调度进行研究,通过对问题的分析与提炼,提出面向电容器生产车间的柔性流水车间调度问题(Flexible F
本文主要研究两种岩石(红砂岩和黄砂岩)在不同围压三轴下声发射规律以及各应力路径下强度之间的关系。从声发射规律,比较统计各应力路径下的强度研究应力路径对强度的影响:通
本文利用2008年经济普查数据考察人力资本外部性的来源和作用机制。首先,我们通过构建生产函数的方式来捕捉人力资本外部性,并考察人力资本外部性与城市规模的关系,结果表明城市人力资本对服务业企业的正外部性主要体现在大城市和大企业中,且城市规模越大人力资本正外部性越显著。进一步地,我们通过控制行业间的投入产出关系以排除潜在的影响,结果依然表明城市规模会加强服务业行业内和行业间人力资本外部性对企业收入的促
随着电动汽车动态无线供电技术的快速发展,尤其是当电动汽车规模化发展后,该技术不仅使得电动汽车充电变得简单便捷,而且减小了对电动汽车电池容量的要求。但是采用该技术的电动汽车动态无线供电系统目前存在着地面端发射线圈轨道设计不合理、接收端各电动汽车车载电池电量不相同等问题,而且其本身也存在着传输功率波动、控制不稳定等缺点。本文就电动汽车动态无线供电系统的功率稳定问题,通过优化对发射端线圈的设计与控制,最
网络安全作为国际上新兴的“战场”,近些年来越来越多的作为关键词出现在了国际新闻中,例如2020年初的“美伊”冲突中,伊朗宣称收到并抵御住了历史上检测到的最大规模的网络攻击,还有联想大约十年前攻击伊朗核设施的大名鼎鼎的“震网病毒”以及其他层出不穷的网络安全事件和网络监听丑闻,不难发现如今全世界各国已经陆续将网络作为继海陆空和太空之外的又一个主要战场,而在这种日益严峻的安全形势下,互联网突飞猛进的发展