基于联想智能的自然语言生成研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:a200638012
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言生成(Natural Language Generation,NLG)是自然语言处理领域的一个重要分支,它将输入资料转换成自然语言表述。实现丰富流畅的自然语言生成是人工智能走向成熟的标志之一。本文关注的自动评论生成任务是NLG技术的应用领域之一。然而,目前基于生成模型的自动评论生成的工作中,生成的评论通常只包含与文章相关的信息,而极少包含人在进行真实评论时所具有的由文章内容联想出的信息——联想信息。针对该挑战,本文在传统自动评论生成技术的基础上,首次引入联想智能来对模型的生成过程进行指导,使得自动生成的评论更加丰富真实。首先,本文针对如何获取联想智能这一问题进行了研究。本文将心理学中的“联想词网络”作为联想智能的载体,但心理学上已有的联想词网络数据集普遍规模较小且领域范围不匹配,无法直接引入到评论生成任务中。针对该问题,本文提出一种基于注意力机制阅读理解算法的联想词自动检测框架,在CNN和NYT两个数据集中自动构建出词语量级为20k的大规模“机器联想词网络”,超过了现有最大的人类联想词数据集。机器联想词网络和人类联想词网络在预测词语语义相似度上的相关系数实验结果表明,机器联想词网络与人类联想词网络具有基本一致性,验证了其有效性与应用前景。接着,为了将已构建的联想智能即机器联想词网络引入到自动评论生成中,本文提出一种基于双GCN编码器-解码器框架的自动评论生成模型Bi-Graph2Seq,该模型将传统编码器难以处理的长文章内容转化为“文章关键词交互图”的形式,由双GCN编码器分别对文章关键词交互图和机器联想词网络编码,再辅以注意力机制和复制机制由解码器生成评论。实验结果表明,该模型能有效将联想智能融入评论生成过程中,且在评论的文章相关度和联想度两方面均可取得优于基线模型的表现。
其他文献
随着移动互联网的繁荣发展,移动应用在人们生活中占据了重要的位置。然而一类恶意软件会在用户不知情的情况下申请Android系统的各种权限,使得用户的个人隐私暴露在危险之中。我们通过基于深度神经网络的自然语言处理方式,即个人信息泄露检测模型,来识别出Android隐私政策中的申明权限,再与Android应用实际使用权限进行对比,从一致性角度出发分析Android应用权限滥用情况。但是,随着进一步研究,
物流文本信息作为物流管理各个环节都会涉及的重要信息,对整个物流系统起着环节衔接的作用。随着现代物流电子化、智能化发展,物流行业中使用的文本数据信息快速增长,如何对海量的物流文本信息进行压缩,从海量的物流文本信息中挖掘出重要的信息,提升阅读效率、协助物流行业进行优化升级已成为当下研究的热点问题。本文以物流文本信息摘要生成方法为研究对象,将主题关键词作为文本结构框架对摘要生成过程起到主题引导作用,并结
判断一个搜索引擎的成功与否,用户对搜索结果的满意度起了关键作用。由于通用搜索引擎搜索到的内容数量过多,且相关率低、重复率高、内容复杂,用户如果想要在通用搜索引擎中查询某一领域或专业的相关网页,检索过程还需花费大量精力去排除无用信息。垂直搜索引擎的出现正是为了解决这一问题。传统搜索引擎在博客网页信息数据的搜索上效率不高,不能满足想搜索特定博客用户的需求。本文重点研究了搜索引擎中网页相关性排序算法的改