面向源代码的作者归属判别方法研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:hdmlb2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
代码作者归属是识别给定代码作者的过程。随着越来越多的恶意软件和先进的变异技术出现,恶意软件的作者正在创造大量的恶意软件变种,寻找恶意代码作者身份的方法也随之成为热点。恶意代码中残留了显示作者风格的特征,这些信息可以帮助预测特定恶意软件的作者使用的工具和技术类型,以及恶意软件传播和发展的方式。代码作者归属技术可以用来识别和分类恶意软件的作者,选择较为明显的代码风格特征和更加高效的深度学习方法,对代码作者身份的判别有重要意义。现阶段,采用程序依赖图(Produce Dependency Graph,PDG)特征的机器学习方法进行源代码作者归属逐渐成为现阶段的研究热点。该方法在收集特征的过程中,包含了程序中的数据和依赖关系,但缺少对整个程序的耦合度的分析以及少量样本中存在数据集不平衡的问题,对具体情况下的代码作者归属精度产生了极大程度的影响。因此,对融合不同类型特征和平衡数据集的代码作者归属研究十分必要。另外,搜集到的恶意代码中不用类型的数据很多情况下是不平衡的,所以提取少数类样本中的特征也变得尤为重要。针对缺少整个程序编码水平衡量的问题,从特征选择方向开始研究。首先,采用主成分分析法对一名作者的源代码耦合度特征提取并量化。其次,再提取具有控制流和数据流特征的PDG特征向量,然后将权值分析后的PDG特征与耦合度进行融合,形成具有更加明显风格的特征向量,最后采用提出的耦合程序神经网络(Coupling Program Neural Network,CPNN)模型进行训练和测试。实验结果表明,经过融合后的特征,更能代表程序员的风格,而改进的代码词向量网络模型性能同样优于其他深度学习模型,该方法在1000名作者的不同类型源代码数据集中,准确率达到了较高的95%。针对C++、Java、C#三种数据特征不平衡的问题,提出一种综合少数过采样算法和循环神经网络混合的模型(Synthetic Minority Over-sampling Technique Recurrent Neural Network,SMOTE-RNN)对不平衡的源代码数据集进行判别。首先,提取带有频率逆文档频率(Term Frequency-Inverse Document Frequency,TFIDF)权值的N-gram特征;然后,基于与原次要类样本的相似性,合成新的少数类样本,使得三种类型的特征数量趋于平衡;最后使用循环神经网络对输入的样本进行微调和优化,得到预测的结果。采用SMOTE算法进行数据处理后的模型训练精度要大大优于未采用数据平衡的精度,并且很快达到了最优。该方法在1000名程序员的不平衡的数据集中,模型的准确率达到了较高的90%。
其他文献
近几年,卷积神经网络在医疗领域发挥着越来越大的作用,解决了医学上很多棘手问题,将卷积神经网络应用在医疗图像识别方面,可以很大程度上提高图像识别率。糖尿病视网膜病变在实际诊断中会出现病变特征难以用肉眼区分,识别率较低,并且依赖于眼科医生的临床经验等问题。目前,使用卷积神经网络对糖尿病视网膜病变进行分类可以为医生提供可靠的判断依据,本文提出了一种基于注意力卷积神经网络的方法对糖尿病视网膜病变进行分类,
在音频信号中嵌入所有者的有效版权信息的技术称为数字音频水印技术,这种技术可以有效的解决数字音频的版权问题,已经成为信息安全领域内的重要研究之一。而且同步问题对于音频信号的研究十分重要,所以音频水印技术的发展较慢;随着互联网技术的不断发展,大量出现的各种各样的破解工具导致了数字音频的被侵权问题越来越严重,如今对音频水印算法的性能也就有了更高的要求。但是,由于音乐音频类型的多样性,对于现有的基于频域的
煤炭在我国的发展中占据着重要的战略地位,因此煤矿的安全开采对于我国的社会和经济发展都具有重要的意义。随着计算机行业的迅速发展,使用智能设备监控煤矿井下的开采以及员工生命安全都取得了巨大进步。但是由于煤矿井下不是非常理想的环境等原因,对管控等技术的发展主要遇到两个瓶颈。首先是监控设备采集的图像照明度普遍偏低并且受到较大噪声干扰,其次矿道较为狭长,在目标跟踪过程中容易出现目标丢失的现象现有的目标跟踪方
随着多媒体网络和GPS全球定位服务系统的发展和相关应用普及,海量且多维度的数据呈现爆发式的增长,包括大量带有关键词属性的空间文本对象数据。目前主要通过空间数据库查询处理技术对这些数据进行分析处理,其中最重要的核心问题就是空间关键词查询技术,它能够利用兴趣点本身的空间属性与文本属性并综合考虑他们与查询之间的相关性,快速返回给用户满足查询需求的兴趣点。现有的空间关键词查询技术主要集中在经纬度坐标之间的
物联网的飞速发展使其部署在边缘的各种终端设备数量迅速增长,通过终端设备收集与传输的数据量也在增加,而物联网终端设备在与平台进行数据传输的过程中,大多缺少适合于物联网环境的高效身份认证和加密通信机制,因为传统互联网中的很多经过人们长久检验的安全机制由于终端设备的计算能力限制等其他特性而并不适用于物联网设备。为了确保大规模部署在无人监管环境中的终端设备安全,本文对物联网环境下终端设备的安全入网方案、身
蛋白质赖氨酸乙酰化(Lysine acetylation,Kace)参与细胞的各种生理活动,与DNA修复和细胞信号传导等生物学过程密切相关,是最重要的翻译后修饰(Post-Translational Modifications,PTMs)类型之一。Kace在生物体中的动态调节,是保证各种生物功能正常进行的重要条件,而异常的Kace修饰将导致各种疾病的产生,如糖尿病、癌症和神经退行性疾病。因此,Ka
随着信息技术的飞速发展与互联网的普及,网络用户更加热衷于在互联网上发表自己的观点、态度,各类网络平台上积蓄着用户大量的评论文本信息,例如购物网站的商品评论、新闻网站的新闻评论、社交网站的社交评论等。这些评论文本信息中大都蕴含着互联网用户所发表内容的情感倾向,对互联网上这些带有情感色彩的评论文本进行整理分析,这对于各个行业都有重大效益。使用自然语言处理中的文本情感分析方法可以对这些带有情感色彩的评论
随着大数据成为国家基础性战略资源,许多企业和组织希望从海量数据中取得经济利益,并为用户提供便利。对于大多数企业和组织来说,他们没有处理海量数据的能力。因此,将数据挖掘任务外包给云计算服务机构有效地解决了这些企业和组织计算和存储容量不足、资源利用不足和资金投入等问题。但随之而来新的安全隐患,核心问题是数据所有者不希望自身敏感信息被别人知道。因此,隐私安全问题是海量数据挖掘技术应用的主要瓶颈之一。频繁
在大数据时代,海量多模态数据广泛存在,怎样通过模态数据间的互补学习来挖掘数据中隐藏的巨大价值,是现阶段大数据研究关注的主要问题。本文研究领域图像标题生成和视觉问题回答便是在寻找图像与文本这两种模态数据之间的桥梁。图像标题生成任务是让机器自动生成一个有意义的句子来准确描述该图像的内容,属于计算机视觉与自然语言处理的交叉领域。现有研究多通过卷积神经网络编码图像信息,循环神经网络解码生成文本信息,在此基
精神分裂症(Schoziphrenia,SC)是一种神经退行性疾病,患者在认知、记忆、情绪、运动感知等方面均有不同程度的障碍。SC患者的大脑信号异常,在结构和功能上发生的病变可能导致了其病理生理的失调。而目前,SC的诊断仍然主要依赖于患者的行为表现评分。由于对病因的认知不足,诊断方式相对单一等问题尚未解决,研究一种有助于诊断和治疗的生物标志有着重大意义。神经影像学的发展为研究精神疾病提供了更好的手