论文部分内容阅读
任务型人机对话系统通过实时聊天式的自然语言输入,准确地理解用户意图,自动构建与执行任务,回复给用户任务执行的结果。由于任务型人机对话系统能以更自然的方式完成用户的各类信息类任务,极大提升了用户体验和任务执行效率,因此成为学术界和工业界的研究热点之一。但是,由于不同业务领域的任务型对话系统需要该领域的大量历史对话数据作为支撑,而大多数平台往往缺乏这样的数据积累,这使得任务型对话系统的研发面临冷启动问题。同时,用户意图理解的准确率还有待进一步提升。在此背景下,本文研究任务型智能对话系统的关键技术,提出了冷启动环境下任务型对话系统的解决方案。该方案提出规则与机器学习结合的办法进行用户意图分类,缓解冷启动问题对机器学习模型性能的影响;设计了集成式CRF模型进行用户意图槽位标注,并构建与利用了领域知识库解决OOV问题,帮助提升槽位识别准确率。在此基础上,本文设计与实现了一套任务型对话系统的引擎,支持多轮对话下用户意图的精准理解与获取,自动构建任务API调用,根据任务执行结果生成答案。本文的主要贡献包括:1)研究提出了规则与机器学习结合的用户意图分类方法,有效缓解了冷启动问题。在基于规则的意图分类时,本文设计规则库,提出了启发式中文词语相似度计算方法和规则模糊匹配算法。在基于统计学习的意图分类时,本文设计了word2vec和n-gram等特征,提出了基于SVM、NaiveBayes和Decison tree的集成学习模型。然后,提出了这两种方法的加权融合策略,对两种方法进行互补,以提升意图分类效果。实验表明,本文方法的意图分类F1值在冷启动环境下可达到82%,超过基准方法。2)研究提出了基于领域知识库的槽位标注技术,有效缓解了OOV(Out-ofVocabulary)问题,提高了标注的准确性。本文构建了一套领域知识库,利用知识库进行实体归一化处理;同时提出了集成式的CRF模型,对不同用户意图类别训练多个CRF模型,并根据分类的概率分布结果对各个CRF模型的处理结果进行加权合并,得到最终的槽位标注结果,以提升模型的鲁棒性和标注的准确性。实验表明,所提出的集成CRF模型的槽位标注F1值达到92%,超过CRF模型(88%)和RNN模型(83%)。3)基于上述技术,以软件众包为领域背景,开发了任务型对话系统的引擎。该引擎已和软件众包平台进行了集成,并通过了一系列测试。测试结果表明,该系统通过自然语言文本交互方式便捷地帮助用户完成各种业务操作,用户任务完成的准确度达到88.2%,单轮对话的平均响应时间为0.695秒,达到了预期的目标。