论文部分内容阅读
当今已进入信息化高速发展的世界,IT技术的发展已经深入到我们生活的方方面面,给我们的生活带来了极大的便利。考试阅卷系统的信息化、智能化是IT技术向教育领域迈进的重要分支,也是教育公平思想观念的重大实践。当前考试系统智能对客观题进行自动阅卷,对于主观题的智能阅卷还未实现。因为主观题的智能阅卷算法设计到自然语言处理、人工智能、模式匹配等多个领域,中文系统本身十分复杂,所以要实现主观题的智能阅卷算法需要进行深入研究。进行主观题智能阅卷就是通过计语句相似度的计算方法对主观题进行自动批改,首要的任务是对中文语句进行分词处理,智能阅卷模型的建立是以中文分词为基础进行的,中文分词的效果和精度直接会影响语义的判断。本文对中文分词技术的进行了深入研究,深入分析了三类分词方法的原理,然后比较了各自的优缺点。最后本文采用Lucene的分词器,选择词库的正向最大匹配算法,以此实现中文分词模块。学生答案和标准答案不可能完全一样,所以我们要计算的是学生答案和标准答案的语句的相似度。语句相似度计算的核心就是词语之间的语义相似度计算,语义相似度算法的效率和精度会直接影响到阅卷的结果。所以在中文分词的基础上进行词语间的语义相似度计算是本文的重点。本文采用基于《知网》的词语相似度计算,《知网》是一部描述概念与概念之间的关系以及概念的属性与属性之间关系的世界知识词典,为我们进行语义相似度计算提供了基础。本文在基于《知网》相似度算法的基础上进行了研究,提出新的改进算法,根据第一义原节点所在义原树中的深度进行加权,考虑第一义原所在义原树的整体深度不同而产生的影响,对集合义原之间的相似度计算进行改进。句子中词语的先后顺序不同也会对语句相似度有影响,为了更好的提高主观题智能阅卷的精度,本文加入了学生答案和标准答案由于语序的不同而产生的影响。经过数据测试和实验分析表明,本文的主观题智能阅卷系统基本可以满足设计的需求,有效的提高了主观题智能阅卷的准确性。