基于预训练语言模型的可控文本生成研究与应用

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:elvisivle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着预训练语言模型建模能力的增强,使用机器生成流畅且合理的句子不再那么困难,然而当生成长度增加的时候,文本的内容和风格不再容易控制,容易出现退化问题。本文基于现有的理论与技术,对可控文本生成的内容控制和风格控制进行了相关拓展与研究,主要工作有以下几点:(1)针对内容控制的问题,爬取专用语料,使用了关键词提取算法构造内容提示数据集。本文在现有预训练语言模型基础上,提出了动态损失优化用于改进单向自回归语言模型,提出了编码器独立增强方法用于改进编码器-解码器模型。和现有的做法进行了多个角度的对比实验并进行了结果分析,实验结果显示本文的优化方式在BLEU可控性指标上分别提升2.27%和5.72%。(2)针对风格难以控制的问题,本文提出隐式变量决策的方法,将生成对抗网络引入编码器-解码器模型架构中,并进行了训练流程的优化调整。通过句法分析的方式构造文本风格控制的数据集,并设计辅助的风格蕴含二分类实验。通过实验对比现有的模型算法,实验结果表明本文的优化方法在风格控制文本生成中提高了7.11%的过筛概率;在文本生成长度增大到100时,文本困惑度指标相对于改进前下降了6.60%。(3)针对分类模型为何做出该决策的问题,本文引入模型解释算法LIME,通过与文本风格分类模型的融合与改进,将可解释性粒度从传统的词级别上升到句子级别,从而构建针对性更强的数据集。提出全句掩码的方式对模型预训练任务改进,来增强分类模型对句子语义的理解能力。对比实验表明,本章的优化方式可以对分类任务的F1值有2.67%的绝对提升,对文本生成BERTScore指标有12.66%的相对提升。(4)分析设计并实现了一个可控文本生成系统,该系统基于B/S架构,前端基于浏览器页面,后端基于python语言和Flask web框架开发。用户通过友好的交互页面,使用本文训练好的文本生成模型来辅助文本写作,具有较高的可用性;管理员可以在后台进行语料管理和模型管理,优化系统中模型的表现。本文给出了所采用到的各个算法过程和系统实现的关键部分,并通过实验验证的算法的有效性和系统的可用性。
其他文献
本文选取Y外贸企业作为研究对象,结合有关理论文献和本人MBA学习的成果,深入分析该企业客户关系管理方面的相关问题,同时研究了提升客户关系管理能力的具体方案。针对该企业大客户稳定性维护,本文进行了详细探讨,明确了其中所存在的问题,并从战略高度提出了具体的改进方案,为该企业提升大客户维护能力提供了借鉴,增强了客户对该企业的认同与忠诚,增强了企业管理工作的现代化水平,为企业增加了利润收入,提高了其在市场
目的:探讨第二代抗精神病药物与精神分裂症住院患者肺部感染的相关性。方法:选择2018年1月~2020年12月本院2328例精神分裂症住院患者为研究对象,采集相关资料进行单因素分析,通过Logistic回归分析、Kendallτ相关系数评估,探讨第二代抗精神病药物与肺部感染的相关性。结果:精神分裂症住院患者使用多种第二代抗精神病药,使用氯氮平是肺部感染的独立危险因素,呈正相关,相关性显著。结论:第二
<正>《义务教育语文课程标准》(2022年版,下称“新课标”)指出,作为一门运用祖国通用语言文字的综合性、实践性课程,语文课程需要基于课程内容的大力整合,学习方式的变革和评价导向功能的发挥等促进学生正确价值观、必备品格和关键能力的提高。其中语文课程的实践性指语文学科核心素养的获得需要基于学生对语言文字运用,即需要基于丰富的语言实践活动增强学生文化自信,发展学生语言运用力,提升学生思维水平和审美创造
期刊
基于2009—2018年中国省级面板数据,运用静态面板模型和面板门槛模型,分别验证全国、东部和中西部地区风险投资发展对技术创新的影响。研究结果表明,风险投资与技术创新的关系存在区域差异性,全国地区和中西部地区风险投资发展不利于创新产出的增加,东部地区风险投资对创新具有推动作用。研究还发现,全国和东部地区风险投资与技术创新存在门槛性。同时,各地区R&D经费支出和工资水平对区域技术创新水平的提高存在正
对抗样本的存在对自然语言处理领域的众多应用存在安全威胁,对抗攻击方法的研究有助于评估甚至提高深度神经网络模型的鲁棒性。现有的词级文本对抗攻击在生成对抗样本的过程中,依赖于单词重要性评分并排序,但效率低下,需要频繁访问目标模型来获取重要性分数。文章针对该问题,提出通过训练替代模型计算单词重要性分数,并结合语义相似度分层采样后得到的目标模型决策概率差值,对原始输入中的单词进行排序。在文本分类任务上的实
<正>魏徵升任尚书左丞那年,有传言说魏徵偏袒自己的亲戚。唐太宗派御史温颜博调查,证明传言不实。可温颜博奏报称:魏徵身为朝臣,应该检点自己的言谈举止。虽然在情理上他并没有徇私,但也有应该责备的地方。于是,太宗命温颜博去告诫魏徵:从今以后,不可不注意自己行为的影响。过了几天,魏徵入朝上奏道:臣听说君臣和谐默契,二者道义上如同一个整体,哪有弃公道于不顾,只追求个人行为影响的,希望陛下让臣做“良臣”。
期刊
目的:通过对比分析单孔加一腹腔镜与传统腹腔镜技术治疗结直肠癌的临床疗效,探究单孔加一腹腔镜应用于结直肠癌手术的安全性、可行性及其优势。方法:收集自2016年1月至2021年10月期间,在湖北民族大学民大医院胃肠外科行乙状结肠或中高位直肠癌根治术的患者临床资料56例。依据采取手术方式的不同,分为单孔加一组(SILS+1组)患者25例和传统腹腔镜组(CLS组)患者31例。比较并分析两组患者的一般病例资
风险投资被视为经济增长的引擎,推动了国民经济的发展,受到学术界越来越多的关注。本文基于企业创新视角,对风险投资影响企业价值的理论基础和实证研究进行了文献梳理与述评,并对未来的研究进行了展望,以期为风险投资、企业创新及企业价值的相关理论研究与实践提供借鉴和参考。
本文以截至2021年3月31日的科创板公司为样本,以风险投资参与度、是否有国际背景和持股比例为主要解释变量,结合Heckman两步分析等计量方法,检验科创板上市公司的IPO溢价现象。首先,风险投资参与投资与IPO抑价没有显著相关性。其次,风险投资机构的国际背景与IPO抑价正向显著相关。再次,风险投资的持股股数与IPO抑价显著正相关。最后,针对一级市场的企业、投资者和监管当局,本文提出相应的对策建议
幽默是人类生活中不可或缺的一部分。作为人类交流沟通中的工具,它能够使人们在交往的过程中打破隔阂、消除沟通的界限。人们通过幽默诙谐的方式可以化解交往中的尴尬,促进人际关系形成,从而能够建立良好的个人社会关系。随着机器学习和深度学习的发展,自然语言处理研究不仅在学术界取得巨大进展,在工业界也促进了“小爱同学”、“微软小冰”等带有情感的智能产品走进人们日常生活。若能赋予计算机理解幽默的能力,将会进一步实