柬语多文档抽取式摘要方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:tshy65655
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本摘要任务作为自然语言处理领域中的一项基本任务,其对文档信息进行有效的压缩提炼,帮助用户从海量信息中检索出所需的相关信息,避免通过搜索引擎来检索可能产生过多冗余信息的问题,有效地解决了信息过载的问题。由于传统的中英文自动文本摘要技术难以移植到柬语上,为了丰富柬语自然语言处理工作的理论与应用,本文对柬语多文档抽取式摘要方法进行了研究。本文的主要工作具体如下:(1)基于深度主动学习的柬语单文档抽取式摘要方法。针对柬语在使用深度学习做单文档抽取式摘要语料标注不足的问题,提出了一种将主动学习和深度学习相结合的方法,解决了训练神经网络柬语语料标注不足的问题。首先利用主动学习抽样策略选择出定量的文档,通过专家标注,获取训练集。然后结合深度学习中编码器解码器模型进行训练模型抽取得到摘要。实验结果表明,即使在训练语料显著标注不足的情况下,该方法抽取摘要的结果仍然能够有效的提升柬语单文档抽取摘要的质量,R1、R2、RL的值分别提高了8.35%、9.23%、7.64%。(2)基于分层最大边缘相关的柬语多文档抽取式摘要方法。针对传统的多文档抽取式摘要方法无法有效的利用文档之间的语义信息,摘要结果存在过多冗余内容的问题,提出了一种基于分层最大边缘相关的柬语多文档抽取式摘要方法,解决了柬语多文档摘要无法有效的利用文档之间的语义信息,摘要结果存在过多的冗余内容的问题。首先将柬语多文档文本输入到训练好的深度主动学习模型抽取得到单文档摘要;然后依据类似分层瀑布的方式,迭代合并所有的单文档摘要,通过最大边缘相关算法,得到最终的多文档摘要。实验结果表明,该方法可以通过使用深度学习的方法和最大边缘相关算法共同获得多文档摘要,能够在保证摘要句子多样性和差异性的同时,提高多文档摘要的精度,有效的提高柬语多文档摘要的质量,R1、R2、R3、RL的值分别提高了5.15%、8.23%、9.48%、7.65%。
其他文献
学位
学位
环境污染造成的侵权行为不仅会造成受害人财产损失,还可能带来严重的人身损害,其中包括精神损害。依据现行法律规定,由环境侵权造成的受害人精神损害,人民法院予以支持。但是,基于环境侵权的特殊性,一般的精神损害赔偿规定是否可以不加以区分同样适用环境侵权纠纷,精神损害结合环境侵权是否具有独特的界定方式,值得疑问。本文分为四章,从环境侵权中精神损害赔偿的界定出发,以司法适用的角度切入现状及困境,从而探寻环境侵
本论文在充分利用巴喀地区现有研究成果的情况下,结合岩心观察、成像测井、测试成果、地震资料等,以构造地质学、油矿地质学及数理统计等为理论指导,研究巴喀地区八道湾组裂缝的发育特点及影响因素,通过三种手段预测了裂缝的分布,采用综合评价方法对三种手段得到的结果评判,研究裂缝有效程度前提下,总结有效缝展布规律。得到如下结果:巴喀地区KEKEYA构造八道湾组断裂以北西西向占主要,平面与剖面上具有多种组合形式。
在部分肝脏切除手术过程中,肝脏内部解剖结构的不可见性直接影响手术精度,同时手术医生需要将患者术前CT或MRI等二维图像信息与患者术中三维解剖信息进行拟合,这对手术经验要求较高,医生术中心理负担较大,此外术中超声图像信息较难理解,都限制了部分肝脏切除手术的发展。增强现实技术的出现为该问题提供了一种解决思路,该技术是将术前CT进行分割重建后获得术前模型并叠加在手术场景中,直观展示患者肝脏解剖结构,指导
本研究在分析了各种常见的磷尾矿资源化利用方法后,提出了利用磷尾矿脱除烟气中二氧化硫的方法;本研究采用XRD对磷尾矿进行了物相分析,利用化学分析方法ICP等对磷尾矿成分进行了分析,通过实验又对磷尾矿脱除二氧化硫的性能以及磷尾矿脱硫的强化进行了研究。在磷尾矿脱硫实验中,主要研究了固液比、温度、进口SO2浓度对脱硫效率的影响规律。实验结果表明,三者对脱硫效率的影响都较大,最佳反应温度为25℃,随着温度升
对土壤造成污染和危害的重金属种类有很多,其中镉(Cd)和砷(As)是较为常见的两种元素。很多研究表明外源添加植物生长调节剂是一种行之有效的措施来提高超富集植物富集重金属。植物生长调节剂在促进超富集植物生长和提高土壤修复效率方面已取得很多成果,但大多为室内盆栽实验,不同植物生长调节剂配合施用提高超富集植物修复效率的大田实验甚少。因此,在课题组之前室内砷超富集植物蜈蚣草(Pteris vittata
现代社会的许多领域中,经常使用多种传感器去捕获同一场景的多幅源图像,这些源图像包含了不同的信息,图像融合任务就是将多个传感器获得的不同信息进行融合处理,使得源图像间的信息互补并综合到一张图像中,得到的融合图像将更加有利于广大学者们的进一步研究以及其他行业的应用。对于图像融合任务,以往的稀疏表示方法对源图像进行分块处理,但这一做法会对图像的某些结构和特征信息造成一定程度的破坏,影响图像的整个结构特征
神经机器翻译成为当前机器翻译的主流方向,在语料资源丰富的语言对上达到了极高的性能,但是在汉-缅这种低资源语言对上应用还不太成熟。在汉缅神经机器翻译中,译文存在词语表规模受限问题,出现较多词表没有覆盖的词语和低频词,这些词语被称为未登录词。引入双语词典这类外部知识对于对于汉缅机器翻译中的未登录词问题有很大的帮助。针对双语词典在汉缅神经机器翻译中的融合,论文主要完成了以下研究工作:(1)基于CNN-C
学位