基于深度学习的软件缺陷自动分配方法研究

来源 :武汉大学 | 被引量 : 1次 | 上传用户:xunzhaogancao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
缺陷分配是将一份缺陷报告快速分配给一位最为合适的开发人员以使缺陷能够快速修复的过程,而缺陷报告的分配工作往往由经验丰富的开发人员来完成。但是,这种人工分配的方式不仅耗费开发人员大量而又宝贵的时间,而且人工分配的准确率也并不太高。因此,如何自动高效地分配缺陷以节省人工分配的人力成本和时间成本成为软件维护领域的一个热点研究问题。典型的做法是将缺陷分配问题转化为文本分类问题。目前,缺陷分配模型所采用的文本分类方法大都是基于词袋模型和一些常用的机器学习算法(如Naive Bayes、C4.5、SVM等)的组合。但这种方法也存在一些缺陷:基于词袋模型或者其变形的文本表示方式,要么忽视了文本的词序信息,要么存在文本表示矩阵过于稀疏的问题,致使很难训练出具有高准确率的分类模型。而常用的机器学习算法如SVM,虽然可以取得不错的准确率,但是其效果往往依赖于大量的人工特征工程,这同样也需要投入大量的时间和精力。有鉴于此,本文提出了一种基于深度学习的缺陷自动分配方法,不再使用词袋模型来表示文本,而是使用目前自然语言处理领域最为流行的词向量模型。这样不仅可以有效捕捉文本的词序信息,而且可以挖掘大量的语法和语义信息,更为重要的是,其文本表示不再是一个巨大的稀疏矩阵。此外,本文不再局限于只使用机器学习算法进行训练,而采用在文本分类领域崭露头角的深度学习技术。深度学习的最大好处在于可以节省大量特征工程,不再需要过多的人工参与,就可以自行寻找文本特征和组合特征,极大地节省了缺陷分配的人力成本和时间成本。本文提出了三种基于卷积神经网络的模型:S_CNN模型、M_CNN模型以及I_CNN模型,并在大型开源软件Eclipse和Mozilla两大数据集上进行了实验验证。结果表明,与机器学习中的SVM模型和基于递归神经网络的方法相比,本文所提方法在平均准确率的指标上均优于上述基准方法,证明了三种模型的可行性。然而,现在的工作还并不成熟,未来会将Transformer、GAN等模型引入到缺陷分配领域中,提出更好的方法使得缺陷自动分配越来越准、越来越快。
其他文献
目的分析促肾上腺皮质激素(adrenocorticotropic hormone,ACTH)治疗不同类型围生期因素造成新生儿期脑损伤导致的婴儿痉挛症(infantile spasms,IS)效果的差异。方法选取2016
<正>新中国的城乡规划法律制度建设,经历了一个从无到有、从单一到配套、从部门规章到行政法规再上升到法律的逐步完善过程。过去五十多年的
<正>消费者需求受大数据时代市场环境的影响越发个性化、多元化,因此以往的营销模式越来越难以吸引消费者的目光,无法达到其满意的标准。对此,各个行业的企业要能与时俱进,懂
旅游城市的城市性质决定了其工业化要进行路径创新,即走新型工业化道路。桂林市走新型工业化道路,是尊重桂林城市性质、提高桂林发展质量和实现桂林跨越式发展的理性选择。桂
长期以来,我国在垃圾治理上,对农村的重视和投入远远落后于城市。落后的垃圾治理基础设施与不断膨胀的污染负荷之间的矛盾日益突出,直接导致了农村环境问题的严重恶化。因此,加快
教学目标:1.知道应当保护环境卫生。2、愿意保持环境卫生,以做到保持环境为荣。3、保持环境卫生做到:(1)不随地吐痰;(2)不乱仍果皮纸屑以及其他废弃物;(3)不在墙上涂抹乱画。
一个五年级的男生,因为在学校的不良行为习惯问题被班主任带来咨询室.这名学生因为家庭生活环境等原因,养成了撒谎、爱拿别人东西的坏习惯,是别人口中的“坏孩子”.咨询师通
讲述佛教创始人释迦牟尼降生、觉悟成道直至寂灭过程的故事被称为"佛陀传记",古代佛陀传记文本主要包括汉译佛传、其他原典文献中的佛传故事、中国人编撰的佛传以及佛教类书等
高等职业教育是最贴近社会经济建设的一类教育,我们培养的人才是否能够满足和服务社会经济发展,满足企业行业现实和未来需求,关乎到《中国制造2025》及2035年中国现代化实现
期刊