论文部分内容阅读
随着“互联网+教育”的迅速发展,慕课平台也得到了前所未有的关注,越来越多的用户通过慕课平台进行课程学习,并在课程评论区留下带有主观情感色彩的评论,这些课程评论数据包含学习者对课程和慕课平台的态度、评价等信息。对这些课程评论数据进行有效地分析、处理可以让学习者和慕课平台管理者获取到一些有价值的信息。本文以慕课平台在线课程评论为切入点,对其进行情感极性分类和潜在主题挖掘与分析研究,分析和挖掘的结果不仅有助于学习者判断和分析待选课程的质量,而且还有助于慕课平台的建设与改进。本文以中国大学慕课平台为例,通过Python网络爬虫技术爬取出在线课程学习者在评论区的评论,然后分别采取基于深度学习和基于LDA主题模型的方法对学习者评论进行情感分析研究。具体的研究工作主要包括以下两个部分:第一,提出一种基于注意力机制的多通道卷积神经网络和双向门控循环网络(MC-AttCNN-AttBiGRU)方法对慕课课程评论进行情感极性分类。由于传统的CNN模型在文本局部特征提取方面表现优异,但是会忽略词语之间的上下文语义,不能有效提取到文本的上下文语义特征,因此本文结合双向GRU模型来提取文本的上下文语义特征,较好地弥补了CNN这一缺陷,既能够提取到文本评论的局部特征,又能够提取到文本的上下文语义特征;并且,在CNN和双向GRU上引入注意力机制,让模型自动选择对文本分类重要的词语,忽略不重要的“噪声”词,进一步提高慕课课程评论分类的准确性。实验结果表明本文提出的方法在慕课课程评论情感极性分类上的效果优于其他几种机器学习方法。第二,结合CBOW词向量模型和LDA主题模型(CBOW-LDA)进行慕课平台在线课程评论主题情感挖掘与分析。该方法相对于情感极性分类是一种更细粒度的情感分析方法,从评论中潜在主题的角度出发,挖掘出学习者的关注点,从中提取出对慕课平台管理员有价值的信息。由于LDA主题模型在处理大容量数据时会出现主题提取不准确及处理效率低问题。针对上述问题,本文先使用CBOW进行课程评论文本降维,然后再把降维后的语料集作为LDA主题模型的输入,接着使用Gibbs采样方法得到文档-主题分布和主题-词分布,以此挖掘出课程评论中潜在的主题和主题词,然后对其进行主题情感分析。实验结果表明本文提出的方法在慕课课程评论上的主题提取效果优于传统的LDA模型、Skipgram-LDA和TF-IDF-LDA模型。