论文部分内容阅读
近年来,随着中国移动互联网的普及以及移动手机端的广泛应用,电子商务快速发展,人们越来越习惯在网络上进行消费,外出住宿大部分都会选择网上订购酒店,并且在进行消费之后会将此次消费的感受分享到网络上,由此产生大量的文本评论,在这些文本评论数据中蕴含了丰富的信息,其中一些有价值的信息给商家和消费者都提供了重要的参考。消费者可以通过这些评论来判断是否选购,商家通过这些评论可以进行优化以此来提高消费者的满意度。但是由于数据量十分庞大,人工统计分析的方法存在诸多局限,因此,运用机器学习的方法深入挖掘酒店文本评论中的有价值的信息在当今一个信息爆炸的时代是很有必要的。本文主要通过深入的研究文本数据挖掘和在线评论的相关基础理论,利用LDA主题模型和文本情感分类方法,对携程网站上的华中地区的酒店在线评论进行实证分析,旨在为消费者提供选购意见,为商家改善自身提供参考。首先,对文本评论进行预处理,将文本数据转化为计算机可以直接识别的结构化数据,分词统计词频之后可以得到消费者看重的关键信息:房间、环境、干净、服务,总体上来说消费者对大部分的酒店是比较满意的,但是还存在一些需要改善的方面;其次,利用LDA主题模型提取5个评论主题:酒店整体的环境卫生、服务态度、地理位置优劣、价格和消费者的总体评价,商家和酒店管理者可以从这五个方面的主题来改善相关设施,从而提高消费者的满意度;最后,基于文本情感分类模型中的随机森林分类器和朴素贝叶斯分类器对文本评论中的好评以及差评进行分类,得到随机森林和朴素贝叶斯分类器的精确率分别为95%和87%,说明两种分类方法的分类的效果还是不错的。从召回率和精确率可以看出随机森林分类器的效果比朴素贝叶斯分类器的效果要好,同时证明了机器学习的方法对于情感分类是有效的,可以运用到文本情感分类中。