强化学习过程中认知控制的神经机制

来源 :曲阜师范大学 | 被引量 : 0次 | 上传用户:kantstop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
强化学习是一种使学习者经过强化物的强化而使得学习率不断提高,最终习得学习规律的一种学习模式。认知控制是强化学习过程中习得学习规律必不可少的重要因素,只有通过认知控制进行合理地计划,不断指导行为,进行行为调整和行为监控才能更好地达到预期目标。其中有效的行为监控包括内部监控/错误发现和外部监控/外部反馈。但是,在强化学习中内部监控和动态学习表现很少被研究者们关注。在本研究领域仍然存在较大的争论:强化学习依赖于哪种性质的外部强化物以及个体的行为调整策略是怎样的?概率选择任务和二阶决策任务是强化学习研究中常用的实验范式。概率选择任务包括练习和测试两个阶段的任务,通过练习阶段习得的规律进行测试,可以考察个体在学习过程中的内部监控与外部反馈之间的关系,并且可以进一步考察个体学习在哪个阶段是依赖于外部强化物的以及依赖于哪种性质的外部强化物。二阶决策任务由两个阶段构成,主要考察前一个试次的反馈结果和转换类型对下个试次第一阶段被试选择的影响,可以较为直接的考察个体的行为策略模式以及认知控制能力在学习过程中的表现。二阶决策任务的研究结果多用于验证强化学习的双模型理论,即目标导向(model-based)模型和习惯化(model-free)模型。目标导向模型是根据环境结构和有机体当前的目标对接下来的行为进行推理预测,以使行为更加符合目标需要,是一种灵活,需要认知控制的系统。习惯化模型是指学习行为依据之前受到奖励过的经验,是一种更加经济(认知资源消耗较少),不灵活(不能对环境变换做出及时的反应),自动化的系统。二阶决策任务相对于概率选择任务更可以考察在更为复杂的环境下个体在进行学习或者行为决策时如何进行认知资源的使用和分配。因此,本研究基于概率选择任务和二阶决策任务对强化学习中认知控制的神经机制进行探索。实验一采用改编后的概率选择范式来检验内部监控和外部反馈的表现模式以及内部监控和外部反馈在动态的强化学习过程中的关系。错误相关负波,反馈相关负波和P300这三种事件相关电位成分可以被用于内部监控,外部反馈和行为调整的指标。研究结果发现:在早期学习阶段趋向学习者和回避学习者有更大的反馈相关负波效应和较小的错误相关负波效应并且负反馈显著大于正反馈,但是在晚期的学习阶段有较大的错误相关负波效应和较小的反馈相关负波效应。另外,反馈相关负波和P300在最后阶段比前三个阶段的波幅显著减小,并且错误相关负波的波幅显著增大。上述的结果表明错误相关负波和反馈相关负波存在权衡关系。行为调整主要基于早期学习阶段的负反馈。另外,被试在学习的最后阶段成功的掌握了学习规律。实验二采用了二阶决策任务考察个体在各个阶段中的行为模式,对行为数据采用logistic回归分析方法以确定各个阶段的行为模型。对反馈阶段选取两个时间窗口进行分析,一个是较早期的时间窗口260-380ms,即事件相关成分FRN,另一晚期成分为N460-620。研究结果发现,在四个学习阶段中仅在第二个阶段表现为目标导向模型,第三阶段既不是目标导向模型也不是习惯化模型。第一阶段和第三阶段都为习惯化模型。事件相关电位的结果发现,FRN成分仅有反馈效价主效应显著并且负反馈波幅明显比正反馈波幅更负,阶段的主效应显著,随着阶段的向后推移FRN波幅逐渐增大。而较为晚期的N460-620成分不但有显著的反馈效价和阶段的主效应外还出现了反馈效价与阶段的二阶交互作用,正反馈波幅在block2,block4阶段的幅值明显减小;以及转换类型,反馈效价与阶段的显著的三阶交互作用,较少转换类型中的负反馈在block3阶段幅值显著减少。这说明,对于较为复杂的实验任务中个体信息加工的时间会加长。基于以上的实验结果,本研究得出以下结论:(1)内部监控与外部反馈之间存在权衡的关系。(2)外部反馈在学习的早期阶段起作用,行为调整主要基于早期反馈的负反馈。(3)在学习过程中,习惯化模型和目标导向模型在学习的各个阶段作用不同,学习的最初阶段是以习惯化模型起作用,认知控制能力较弱,学习的后期目标导向模型会参与其中,使个体的行为更加符合环境需要,认知控制能力增强。(4)对于较为复杂的实验任务中个体信息加工的时间会加长。
其他文献
Al-Zn-Mg-Cu合金作为新一代的优质结构铝合金材料,具有高强度、高韧性、良好的扩散性、密度小以及具有巨大的减重潜能,因此在兵工器械、航空航天、核工业、舰艇及桥梁等领域都有着极其广泛的应用。被认为是最有可能代替钢、铁的有色金属材料。本文采用一种新型的Al-Zn-Mg-Cu合金(7A60),在不同的工艺参数下(变形温度、变形道次)对Al-Zn-Mg-Cu合金进行等径角挤压(ECAP)实验。采用多
航空航天、精密仪器等领域由于环境温区变化大或尺寸变化敏感,使得低膨胀金属材料具有很大的应用价值。传统的低膨胀材料如Invar合金等密度大(8.1g/cm3),低膨胀区间窄(-2020℃),严重限制其使用条件。本文设计制备具有构型的负膨胀连通结构,配合轻质铝合金基体,获得宽温区低膨胀铝基复合材料。本文通过固相反应法制备了ZrW_2O_8,研究了温度、配比、烧结次数等条件对ZrW_2O_8合成制备的影
在我国经济发展突飞猛进的同时,空气污染问题日益严重,使我国在经济、环境、人民健康等方面均遭受了不同程度的损失。空气污染的成因和影响因素是多方面的,为增强我国联防联治对抗空气污染的效果,本文重点从我国空气污染集聚特征着手,并分析引起区域化差异的原因。本文的研究工作和创新贡献主要体现在以下方面:(1)我国空气污染具有一定的集聚效应,因此需要对我国空气污染集聚的区域进行识别与划分。本文利用多元线性回归模
随着人工成本的上升与技术水平的发展,物料的自动化搬运逐渐成为工业生产的发展主流。自动导引运载车(Automatic Guided Vehicle,简称AGV)在物料运输、设备对接等工作环节中
[目 的]平均血小板体积与淋巴细胞比值(MPVLR)是一个新的炎症指标,通过比较早期2型糖尿病肾脏病患者、单纯2型糖尿病患者以及健康人的MPVLR等相关临床指标的变化,探讨MPVLR与
目的:利用光学相干断层扫描技术(optical coherence tomography,OCT)和光学相干断层扫描血管成像技术(optical coherence tomography angiography,OCTA)观察糖尿病性黄斑水肿
山东省青州博物馆收藏有该市香山汉墓出土的大量彩绘陶俑、陶器、铁器和铜器。其中,数百个卜字形铁戟(附铜柲帽)严重锈结、矿化,部分铁戟上残留有朽木漆鞘痕,或有缠绕物麻绳
炎症是机体对致炎因子刺激产生的防御作用,但长期过度的炎症反应会影响机体正常代谢过程,如类风湿性关节炎、炎性肠病、动脉粥样硬化、脑卒中、糖尿病和肿瘤等。因此,抑制机
在太空中温度从高温到低温的交替变化是对材料影响很大的,为探究颗粒增强金属基复合材料在冷热循环处理下性能变化的原因。本课题通过高能球磨+粉末冶金+热挤压的方式制备了不同尺寸的SiCp/Al复合材料,对复合材料进行冷热循环处理。通过SEM和TEM分析了处理前后的微观组织形貌,测试并比较了处理前后的性能,利用ABAQUS软件模拟研究了冷热循环后复合材料中应力分布的规律,分析了冷热循环后热应力对复合材料性
近年来,对外汉语学界关于语篇的探讨研究如火如荼,其中包括结合具体教学实践对语篇本体再阐述、结合语料对语篇偏误归纳总结等,尤其针对中高级汉语学习者的语篇研究成果不胜