论文部分内容阅读
自然语言生成(Natural Language Generation,NLG)是自然语言处理领域的一个重要分支,它将输入资料转换成自然语言表述。实现丰富流畅的自然语言生成是人工智能走向成熟的标志之一。本文关注的自动评论生成任务是NLG技术的应用领域之一。然而,目前基于生成模型的自动评论生成的工作中,生成的评论通常只包含与文章相关的信息,而极少包含人在进行真实评论时所具有的由文章内容联想出的信息——联想信息。针对该挑战,本文在传统自动评论生成技术的基础上,首次引入联想智能来对模型的生成过程进行指导,使得自动生成的评论更加丰富真实。首先,本文针对如何获取联想智能这一问题进行了研究。本文将心理学中的“联想词网络”作为联想智能的载体,但心理学上已有的联想词网络数据集普遍规模较小且领域范围不匹配,无法直接引入到评论生成任务中。针对该问题,本文提出一种基于注意力机制阅读理解算法的联想词自动检测框架,在CNN和NYT两个数据集中自动构建出词语量级为20k的大规模“机器联想词网络”,超过了现有最大的人类联想词数据集。机器联想词网络和人类联想词网络在预测词语语义相似度上的相关系数实验结果表明,机器联想词网络与人类联想词网络具有基本一致性,验证了其有效性与应用前景。接着,为了将已构建的联想智能即机器联想词网络引入到自动评论生成中,本文提出一种基于双GCN编码器-解码器框架的自动评论生成模型Bi-Graph2Seq,该模型将传统编码器难以处理的长文章内容转化为“文章关键词交互图”的形式,由双GCN编码器分别对文章关键词交互图和机器联想词网络编码,再辅以注意力机制和复制机制由解码器生成评论。实验结果表明,该模型能有效将联想智能融入评论生成过程中,且在评论的文章相关度和联想度两方面均可取得优于基线模型的表现。