论文部分内容阅读
数据挖掘指的是从数据库中提取隐含的、未知的和潜在的有用信息的过程,是数据库及相关研究领域中一个极其重要而又具有广阔应用前景的新领域。同时,随着各种教学网站的出现以及基于网络教学研究的不断深入,老师与学生的在线交流也日益丰富起来,一种智能化自动答疑系统的产生便成了迫切的需要。智能答疑系统的出现,实现了抽取问题的智能性、答案评优的智能性和信息维护的自动性,从而使得用户可以更加方便的使用系统,管理员可以更加容易的管理系统,系统返回的答案具有更高的准确性。本课题将数据挖掘算法应用于智能答疑系统中,提出了一套基于数据挖掘算法的答疑设计方案并加以实现,目标是实现一个高效快速准确的智能答疑系统。本课题首先阐述了课题所涉及的数据仓库技术与数据挖掘技术,为本文的全面展开奠定了基础。然后深入研究了关联规则算法和文本聚类算法,并针对这些算法提出了改进方法,备用于答疑系统中数据仓库的设计中。其基本思想是将基于关键词的关联规则用于文档的相似度计算中,可以从每个问题所对应的许多答案中抽取出一个最恰当答案,生成一个一一对应的问题答案对库。再执行基于关联规则的文本聚类算法,实现问题分类存储。将聚类后的每一类问题应用关联规则,可以得到更加准确的关联表,同时也促使相似度的精确度得以提高。在执行关联规则与文本聚类操作后,便可以得到一个分类存储,答案准确度高的数据仓库。最后给出了答疑系统的整体设计流程,阐述了每一步工作原理,实现了一个答疑准确的智能答疑系统。实验证明,基于数据挖掘算法的智能答疑系统可以有效的提高系统答疑准确率,并且在答疑的速率上也有了一定的提高。