论文部分内容阅读
在互联网技术日益繁荣的今天,各种各样的信息呈现出爆炸性的增长态势,问答系统也不例外,积累了庞大的问题库。随着人工智能在现代社会如火如荼地发展,大数据给人们的工作和生活带来了越来越多的好处。因此,对这些庞大的数据信息进行合理有效地处理,从而为用户提供精确可靠的信息资源具有极其重要的意义。虽然现代搜索引擎帮助人们从扑面而来的信息中得到了一定程度的解脱,但是不难发现,在真正有用的信息中却夹杂着大量的噪声信息。如何避免这些噪声数据的干扰,提高用户搜索信息的质量和效率,问答系统在这方面起到了很大的作用。问答系统被认为是更高级别的检索系统,这是因为该系统一方面克服了搜索引擎难以理解用户意图的缺点,另一方面也避免了一些错误结果的返回。对于用户用自然语言提出的问题,问答系统往往能够给出简洁、准确、对用户友好的答案。问答系统是一个不断发展的研究领域,它融合了信息检索、自然语言处理和深度学习等技术,分为自由文本体系结构的问答系统和问题答案对体系结构的问答系统。本文主要研究基于问题答案对体系结构的问答系统,通过将用户提交的问题进行分析,进而与系统中的问题组数据库进行匹配,检索到与用户提交的问题语义最相似的问题,之后将类似问题的最佳候选答案推荐给用户,从而可以提高用户检索有效信息的效率。因此,为了更好地理解用户的查询意图,匹配到问答系统中最相似的问题,对问题对之间进行语义相似度计算就显得尤其重要。文本的相似度计算一般是从短语、句子、段落和文档这些层级进行衡量和分析,本文主要是针对问答系统问题对句子级别的语义相似性方面进行研究。受卷积神经网络在图像识别领域应用的启发,本文构建了基于孪生卷积神经网络生成自适应内容信息矩阵的深度学习模型,提出了将自适应近邻图和先验知识近邻图组合形成双通道近邻图的方法。文本近邻图能够表达文本样本的近邻关系,本文采用词嵌入的方式将文本转换为向量形式,通过构建文本相似度关系矩阵来获得文本近邻图。现有方法通常是构造静态的近邻图,这些方法一方面依赖先验知识,另一方面难以获得句子对的最优表示,针对这些不足,本文提出了利用孪生卷积神经网络学习更优的动态更新的近邻图方法,通过实验,该模型在Quora和MSRP两种数据集上的准确率分别是84.35%和75.65%,F1值分别是79.98%和82.97%,实验结果比其它方法表现要好,证明了本文提出的深度学习模型在短文本问题对的识别和匹配任务上具有可行性和有效性。