论文部分内容阅读
伴随着高校招生规模的日益扩大,高校教学咨询工作面临巨大压力,学生咨询需求得不到及时满足,导致高校教学管理压力剧增,使得大部分高校专门设立了教学咨询处,而且一些二级学院还通过学院办公室、BBS、院长信箱等方式,为广大学生教学咨询开展线上、线下咨询服务。概括来讲,此类做法主要存在以下问题:线上、线下教学咨询都依赖人工回复,从而造成老师工作负担重,信息不同步、交互性差、及时性不强、不能实现7×24小时的全天候服务。因此,教学服务类机器人应运而生。为向学生提供充足、及时的教学咨询服务,同时也为减轻老师工作负担,论文作者选择研发高校教学问答服务机器人,以辅助高校教学管理人员完成其日常教学咨询工作,并减少繁琐的教学咨询工作负荷,提高教学管理效率。论文的研究目标是构建一款面向高校教学管理的问答服务机器人,实现一个软件系统,以辅助教师完成各项教学咨询工作,为高校学生搭建一种崭新、智能的问答咨询平台。为此,论文在自然语言处理技术上,建立了对文本分类与文本相似度技术的分析与改进,以及FAQ知识库,明确了问句分析、问句检索、答案回馈为问答服务机器人的3大关键技术问题,构建了“基于文本形式的学生提问→预处理→答案集生成→答案择优→答案反馈”服务机器人的处理流程。在该流程答案集生成步骤中,短文本的分类、相似度计算是服务机器人软件系统的核心技术,也是本文的重要工作内容。基于上述目标,为比较清晰的呈现应用研究成果,作者将论文划分成如下5个组成:(1)绪论。主要包括问答系统研究背景和研究现状。其中,研究背景概述了研究的意义和重要性;而研究现状介绍了问答机器人的行业研究现状,以及论文所涉及的短文本分类、短文本相似度计算技术的研究现状综述。(2)文本预处理和文本表示。主要包括自然问句向可计算形式转换的处理过程,此过程主要涉及到文本预处理操作和文本表示方法的关键性技术内容。其中文本预处理是针对原始问句进行正则去噪、分词和词性标注、过滤停用词的基础操作;而文本表示方法则是以预处理结果为基础,利用向量空间模型、LDA主题模型和词向量模型所进行的文本表示,这将为后续问句的分类和相似度比较提供计算依据。(3)短文本分类方法。主要介绍了传统神经网络输入矩阵只提取词粒度层面的词向量为特征表示,所隐藏的文本粒度层面整体语义特征表达不足,该问题将导致文本特征表示不充分的问题。因此,在本章节中,论文提出了一种结合词向量和主题向量的文本表示矩阵,概括了词义特征和语义特征,引入了卷积神经网络方法,以达到提高短文本分类准确度目的。(4)短文本相似度计算方法。主要阐述了传统LDA主题相似度计算结果缺乏准确性的问题,提出了基于LDA的多特征融合短文本相似度算法,并提取文本的主题相似度因子和词语共现度因子,在此基础上,建立了选择扩充策略和联合相似度模型,以进一步帮助提高短文本的准确性。(5)问答服务机器人实现。主要完成了FAQ知识库的构建、算法的应用和系统原型的实现等工作内容。其中,FAQ知识库的构建是以重理工计算机学院院长信箱10年历史数据为基础,构建了领域关键字词典、二级标签聚类和知识数据库;算法的应用则在FAQ知识库基础上,应用本文改进分类和相似度算法,实现了问答服务机器人软件系统所必须的算法架构;系统原型的实现则以Python WEB技术,实现了系统可视化仿真原型。