基于半监督的文本分析预训练模型研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:suing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来深度学习的技术得到了广泛的应用与发展,也自然而然的应用在了自然语言处理的任务中,随之产生的预训练模型也因此得到了更为广泛的应用。无论是在句子的提取还是在文本的情感分析中,预训练模型都发挥了极其重要的作用。随着预训练模型的发展与成熟,利用大规模的语料库来进行无监督预训练模型的方式被证明是能够有效训练数据模型的最优方式。预训练模型将自然语言处理带入了一个新的时代,预训练技术也成为自然语言处理领域不可替代的主流技术。最近,一些基于变换器的架构,如BERT模型等,在许多自然语言处理任务中都提供了令人印象深刻的结果。然而大多数模型采用的基准都是由数量庞大的样本所构成的,这些样本有时甚至可达数十万个,这导致在许多实际场景中想要获得高质量的标签数据需要极大的时间成本。在与自然语言处理任务类似的图像处理任务中曾经提出过一种十分有前景的方法来实现无监督学习,该方法使用生成对抗网络对数据进行处理。本文中为解决自然语言处理中存在的问题,对上述两种类型的模型进行改进后,对数据处理进行研究,采取半监督学习的方式,在有标签数据占比较小的情况下完成原本需要大量标签数据才能实现的数据处理任务,解决了在大数据处理过程中获取足量标签数据的成本问题,同时保证了实验的结果的准确度,造成的误差损耗也相对较小。本文所做的主要工作内容如下:首先,改进模型的池化方式,将隐藏层的序列转化为一条向量,沿着序列长度的维度分别求出均值和最大值,之后再拼接起来成为一条向量,经过同样映射后形成一个值并激活,有效防止过拟合。其次,对字典字数进行调整,设置新的隐藏层维度、注意力机制的个数、feedforward层线性映射的维度等各项指标对BERT模型进行精简,提高了模型的运算速度,改善了模型的训练周期等。同时,对数据处理方面归一英文、数字、未知字符掩膜表示,在针对中文进行分类处理的任务中,可以减少特殊字符对实验结果造成的误差。再次,将精简后的BERT模型与无监督模型GAN模型相结合实现半监督训练,提升了数据处理的精度,尤其在样本量巨大的情况下,半监督模型可以极大的节约时间成本,但是却不影响实验结果的准确性,甚至可以达到更高的准确度。最后,使用四个不同任务的公开数据集进行正负面评价分类等多种不同任务的自然语言处理,通过数据集各自的特性,采用相应的评价标准对模型的实验结果进行验证,并证明了模型的有效性。
其他文献
原发性高血压病已成为严重危害人类健康的主要疾病之一,以体循环动脉压升高为主要表现,常引起心、脑和肾等脏器并发症,是诱发其他心脑血管疾病的高危因素。常用的药物治疗会产生一定的不良反应,因此,需要寻找一种有效且不良反应较少的治疗方法。针刺作为中医传统外治方法,目前已广泛应用于临床且有降压效果。随着针刺治疗高血压在临床中的应用,其作用机制成为研究的热点。文章主要从神经机制、内分泌机制、免疫机制、氧化应激
人类文明新形态不仅是一个新概念,也是一种新论断和新思想。人类文明新形态具有鲜明特征,异于西方文明形态、坚持以人民为中心、坚持和平和谐包容原则、提倡共商共建共享。人类文明新形态超越了西方文明优越论,揭示了现代化多样性,推动了世界和平发展,提供了世界文明发展新范式,具有广泛的世界影响和深远的历史意义。
财务共享服务作为一种先进的管理模式,有着扎实的理论基础,在国内外众多企业已经发挥了积极作用,但关于行政事业单位的理论研究和实践案例较少。文章按照国家医药卫生体制改革部署要求和财务转型需求,借鉴财务共享服务应用在企业的成功经验,结合山西省医疗卫生机构行业特点,剖析政策依据、基础条件、障碍性因素、风险防范及保障措施等,探索通过财务共享平台解决存在问题的必要性、可行性,研究发现,推行财务共享服务符合大健
目的 观察右美托咪定气道内给药在行单肺通气下肺叶切除术老年肺癌患者中的应用效果。方法 拟行肺叶切除术的肺癌患者65例,随机分配到研究组34例、对照组31例。两组均气道插管成功后给予右美托咪定,研究组通过气道导管注入右美托咪定1μg/kg(生理盐水稀释至4 mL),对照组患者静脉泵注右美托咪定1μg/kg(生理盐水稀释至20 mL),10 min内注药完毕。麻醉诱导前(T0)、单肺通气改为双肺通气后
近年来,预训练语言模型发展迅速,将自然语言处理推到了一个全新的发展阶段。文中的综述旨在帮助研究人员了解强大的预训练语言模型在何处以及如何应用于自然语言处理。具体来讲,首先简要回顾了典型的预训练模型,包括单语言预训练模型、多语言预训练模型以及中文预训练模型;然后讨论了这些预训练模型对5个不同的自然语言处理任务的贡献,即信息提取、情感分析、问答系统、文本摘要和机器翻译;最后讨论了预训练模型的应用所面临
采用文献资料、网络查询、专家访谈、案例分析等研究方法,从大数据视角对正在落实体医融合的机构、事件、项目案例进行收集和整理,对表现形式、运行方式、功能作用等进行分析,总结理论依据和发展规律,进而提出体医融合案例推行方案。研究认为,依据体医融合共同促进健康的实现机制,可以将体医融合案例分为两大基础类别:一类是体育手段促进健康类,另一类是体育手段和医疗手段共同促进健康类。依据体医融合案例的功能作用,将其
目的 了解广州市在校大学生健康素养的影响因素,为开展有针对性的干预措施提供依据。方法 于2020年6-7月采用多阶段随机整群抽样方法,在广州市根据办学层次和院校属性选取本科院校3所,高职院校4所,以在校大学生为对象对其进行网络问卷调查。结果 广州市在校大学生健康素养总水平为47.8%;3个方面健康素养水平由高到低依次为健康生活方式与行为素养(63.0%)、基本健康技能素养(53.1%)和基本健康知
社会实践育人是高校思想政治教育立德树人的重要抓手,其目的是引导青年学生“把人生抱负落实到脚踏实地的实际行动中来,把学习奋斗的具体目标同民族复兴的伟大目标结合起来”。民族要复兴,乡村必振兴,乡村振兴战略是实现国家富强、民族复兴的重大决策,也是实现全体人民共同富裕的必然之举。全面实施乡村振兴战略背景下,地方应用型高校思政教育社会实践需要根据育人特色,立足“三农”实境,找准对接乡村振兴战略的着力点,明确
<正>本期智库:涂睿明《制瓷笔记》作者著名瓷人长物居陶瓷文化有限公司创始人。景德镇的中国陶瓷博物馆今天和大家聊一聊景德镇中国陶瓷博物馆。这个陶瓷博物馆的名称叫景德镇中国陶瓷博物馆,这点很有意思,大部分的博物馆都是中国放在前面,再加上地名。所以当时我看到这个名字的时候就觉得非常有意思。当然,我们知道这个博物馆称为中国陶瓷博物馆,也没太大问题,因为这个博物馆成立时间很久,在解放以后成立,它的馆藏也主要
期刊
目的:基于数据挖掘技术研究高血压性眩晕组方用药规律,归纳辨治特色,指导临床运用。方法:通过检索各数据库中医家医案文献,构建方药数据库,通过SPSS Modeler 18.0、SPSS Statistics 22.0、中医传承辅助系统平台(V2.5)对组方用药进行频次统计、关联规则、复杂网络、系统聚类、熵层次聚类新方及主成分因子分析。结果:253首处方涉及中药258味,涵盖7个病位证素和13个病性证