【摘 要】
:
深度学习模型的可解释性一直是人工智能领域不可忽略的重要问题,自预训练模型问世以来,该问题更是引起了广泛的关注。目前该领域的发展还处于初级阶段,多数已有的方法只专注于分析模型的预训练过程而忽略了预训练模型的微调过程。而作为将预训练模式应用于具体任务的关键步骤,微调过程具有重要的研究价值。研究能够用于分析预训练模型微调过程的分析方法,能够通过分析预训练模型微调前后的差别了解模型的内部机制和原理。进一步
论文部分内容阅读
深度学习模型的可解释性一直是人工智能领域不可忽略的重要问题,自预训练模型问世以来,该问题更是引起了广泛的关注。目前该领域的发展还处于初级阶段,多数已有的方法只专注于分析模型的预训练过程而忽略了预训练模型的微调过程。而作为将预训练模式应用于具体任务的关键步骤,微调过程具有重要的研究价值。研究能够用于分析预训练模型微调过程的分析方法,能够通过分析预训练模型微调前后的差别了解模型的内部机制和原理。进一步提高模型的应用价值,为未来的模型优化工作提供新的研究视角。本文主要从以下几个方面展开研究:(1)设计不同的训练方法训练并对比预训练模型和微调后的模型。通过对比预训练模型和微调后的模型解决下游任务的能力,发现二者差别明显,且微调后的模型在不同任务中的表现全面优于预训练模型。由此可以得出微调后的模型不同于预训练模型的结论,并提出对微调过程进行分析必要性。(2)根据不同的下游任务进行特征挖掘,并设计特征算法构造相应的数据集用于模型分析。微调过程通常需要结合具体任务的数据集对模型进行训练,因此分析预训练模型的微调过程不可避免的需要结合不同数据集的特点来进行。通过结合两种常见的下游任务数据集中的案例,分析出9种蕴含在各个数据集中的语言学现象,并针对每一种语言学现象设计相应的算法构建对应数据集,创建的数据集可用于分析和对比模型在微调前后的差别。(3)通过对各个数据集特点的总结和归纳,设计出了一种全新的可用于分析模型的成对分析方法。该方法的设计过程中一方面结合了创建的数据集的特点,即每个数据集中都存在的关键词对。通过构造相应的正负例并计算正负例之间的相似度,再使用统计的方法将相似度结果可视化。另一方面,该方法的设计过程还结合了模型的结构特点。该方法能够适用于模型每一层的输出结果,可以通过可视化的方式看出模型每一层相应能力的变化趋势。通过对研究结果的分析发现微调过程对于预训练模型的前5层基本无影响;微调过程对于通用语言学任务帮助甚微,主要提升了特定任务中的特定能力,且特定能力主要蕴含在模型的5层之后;微调后的模型对于复杂语言学现象的识别能力还存在提升空间;微调后模型的不同层具备不同的能力,通过该方法的分析可以帮助指导模型的应用,使模型能力最大化。
其他文献
构建区域学前教育教研体系,是学前教育深化改革的必然要求,可以从教研机构、工作机制、教研形式与保障机制等多层面展开探索。广州市番禺区是全国学前教育改革发展实验区之一,在构建区域学前教育教研体系方面,探索了有效的实施路径:健全教研组织管理机构,明确分工,各司其职;加强教研员队伍建设,重视专职和兼职教研员的培训;创新教研工作机制,协同推进有效教研与联动;丰富教研形式,多角度多维度全覆盖;健全教研保障机制
以我国2016年公布的全国研学旅游示范基地和第一批"全国中小学生研学实践教育基地"为样本,运用最邻近指数、空间自相关、核密度估计值,研究研学旅游资源的空间分异特征及影响因素.结果表明,研学旅游资源的空间分异最邻近指数R=0.627,泰森多边形检验的变异系数为221.74%,符合集聚分布模式.研学旅游资源的核密度以北京市为极点,沿北京边缘地区发散,呈现单核心不均匀的集中分布特征.研学旅游资源的空间分
目的:观察儿童抽动障碍复发的相关因素;探讨中医药治疗对复发的影响,为临床减少复发提供初步策略。方法:采用回顾性研究的方法,收集就诊于天津中医药大学第一附属医院儿科抽动症专病门诊病例共388例,其中经治疗后控制未复发的病例213例,复发病例175例,出现复发者全部纳入研究,未复发者随机选取175例纳入研究。观察患儿的性别、年龄、胎产情况、出生时健康情况、家族史、情绪、所处环境变化、心理因素、呼吸道感
病媒蚊中的雌蚊通过刺吸人类的血液传播疾病,对人类健康构成威胁。目前世界上病媒蚊传播的病毒已知的种类有40余种[1]。蚊虫对世界的公共卫生有着巨大的危害性,在2015年寨卡病毒通过蚊虫传播造成南美洲约200万人感染[2]。现阶段控制病媒蚊的手段还是以植物源杀虫剂(例:除虫菊酯)、微生物源农药(例:苏云金杆菌和球形芽孢杆菌)、昆虫调节剂(例:避蚊胺)为主[3],大量使用药剂会使蚊虫产生耐药性;传统的除
近些年来,空气质量恶化已成为全球问题。许多研究表明小粒径污染颗粒由于其有机化学物质含量高和氧化能力强的性质,对心血管的危害更大。因此雾霾中的超细颗粒是需要关注的重要成分之一。射血分数保留型心力衰竭(Heart failure with preserved ejection fraction,HFp EF)的发病率和死亡率正在上升。受污染空气中存在的超细颗粒更容易从人们的呼吸道直接进入血液,对血管内
尼泊尔是夹在中国和印度两个大国之间的内陆小国,但印度对尼泊尔的地缘影响力远远大于中国,尼泊尔经济上依赖印度,文化上与印度相似,在印度的南亚霸权威胁下,尼泊尔一直选择追随印度。而近年来,随着尼泊尔左翼政党上台以及中国提出“一带一路”倡议,尼泊尔外交逐渐从追随转向了平衡,对华友好,与中国开展政治、经贸和文化领域的深度合作,以此平衡印度的传统影响力。同时尼泊尔坚持在平等的前提下,与中国和印度两个大国都保
为提升聚光太阳能热发电在可再生能源电力中的成本竞争力,进而促进全球范围内的碳达峰和碳中和目标早日实现,第三代聚光太阳能热发电技术(CSP Gen3)的概念应运而生。CSP Gen3主要有两个技术特点,超临界CO_2动力模块和高温储热模块。根据储热介质的不同,CSP Gen3存在三种技术路径,高温熔融盐式、颗粒式和气相式。本文的研究对象便是颗粒式CSP Gen3两种设计思路中的关键部件和关键行为。关
19世纪末期,俄国为了维护国家安全和远东地区的利益,在中东铁路、旅顺口、大连港获得了特权,严重侵犯了中国主权,中国东北问题就此产生。1945年,苏联与国民政府签订《中苏友好同盟条约》,苏联在中东铁路、旅顺口、大连港的特权被确定下来。新中国成立前夕,中共领导人开始考虑同苏联结盟。1949-1950年,中苏双方就结盟进行了三次关键性会面,分别是米高扬访问西柏坡、刘少奇访问莫斯科、毛泽东访问莫斯科。东北
随着经济全球化区域化推进,世界上出现以都市圈为核心带动区域发展的经济模式,我国也加快对都市圈经济模式的建设和发展,2019年2月,发改委发布《国家发展改革委关于培育发展现代化都市圈的指导意见》,强调要强化城市间产业分工协作,推进公共服务共建共享,实现城乡融合发展,构建都市圈一体化发展机制。但在都市圈建设中存在产业同构、产品同质,跨区域协调障碍,科技创新动能不足,产品附加值低,影响都市圈建设进程和区