论文部分内容阅读
近年来,使用机器学习方法来预测软件缺陷得到了广泛的关注。在实际工程中,软件缺陷特征的构造需要相关领域知识及大量时间,使得到的软件特征一般较少。并且,有缺陷的软件样本会大大少于无缺陷的软件样本,造成样本的高度不平衡。这里,通过显式的特征构造方法,把有限的原特征映射到高维度的特征空间;通过改进的Bagging以及随机特征子空间的方法,在得到类平衡的训练样本集的同时,提高模型的泛化能力。通过上述方法,得到一系列弱分类器。最后,使用一个简单的线性分类器训练得到各个弱分类器的权重来融合所有弱分类器,得到更好的分类效