论文部分内容阅读
智能答疑系统综合运用了自然语言处理,信息检索等技术,能够对学生以自然语言描述的问题,自动给与答案,在远程教育中有着非常重要的作用。在答疑系统中为了能够快速匹配问题,可以建立适当的分类和索引机制。本文主要针对答疑系统中的问题与资源的分类,采用了支持向量机模型与最大熵模型分别来实现相关功能。主要研究内容如下:1.介绍了分类的理论基础,讨论文本表示过程的关键技术:中文分词与特征词选取,权重计算,以及模型的数学理论基础和参数选择算法。2.在资源的预处理过程中,通过一系列开源软件去除掉常见文档的格式来得到文本的内容,在中文分词时,给出并使用了一个全切分中文分词方法。3.利用有向无环图结构实现了多分类支持向量机,使用序列最小化算法训练得到模型的参数,接着比较分析了支持向量机在使用不同特征选择算法,以及不同核函数时的分类性能。4.在最大熵模型实现的分类系统中,使用CGGIS算法作为参数训练算法,选取1、词频和log(词频)分别作为特征函数值,通过实验比较分析在这3种不同情况下最大熵模型的分类性能。