论文部分内容阅读
近年来,大规模深度学习算法的发展使得聊天机器人不再仅仅依靠模板匹配与检索等方式,生成式对话算法逐步成为可能。与检索式聊天机器人相比,生成式的聊天机器人的迁移性与泛化性更佳,拥有着更广阔的应用场景。本文主要关注开放领域的聊天机器人,区别于特定任务的聊天机器人,开放领域下的聊天机器人其目标不是为了尽快完成用户指定的任务,而是吸引并留住用户令其有兴趣与机器人继续交谈。本文首先对生成式聊天机器人领域主流的基于RNN的Encoder-Decoder算法模型进行实验,同时对比了LSTM和GRU等不同的神经网络单元对结果的影响,随后加入attention注意力模型机制提高了生成效果,而后又采用了beam search方法提升生成效果的多样性。由于目前seq2seq的生成式算法在输出时采用最大似然估计方法,极易产生大量无实际意义的安全回复。为解决这个问题,本文采用强化学习的方法评估对话的未来奖励,不再是针对当前输入选择对应的最大可能回复,而是评估其对未来对话的奖励,以促进聊天持续发展。同时本文认为一个更为智能的机器人应具有情感色彩,故本文在强化学习的奖励函数上,除对生成的语句流畅性等方面进行检测并将其作为奖励外,还加入了对候选句的情感检测,以期令聊天机器人尽可能选择对未来对话情感指数有提升的候选句,有效地延续对话。本文还将情感信息作为监督信号加入到生成过程中,从语料中学习聊天过程的情感转移分布,并将该分布作为监督信号指导聊天机器人回复,使其产生蕴含情感的语句。最后,通过自动评价结合人工评价的方式,本文就上述几种方法进行了对比,验证了所提出模型方法的有效性。