论文部分内容阅读
随着互联网的快速发展,垃圾评论不断产生,垃圾评论对消费者参考购物产生了极大的干扰,同时扰乱了网络环境的正常秩序。有效识别电子商务垃圾评论对于消费者和商家来说都是一项迫切的需求。近年来,随着电商模式和电商法律的不断完善,商品评论数据的内容也在发生着变化,为了有效识别垃圾评论,在电子商务垃圾评论指标选取方面应当有所改善。同时受电商法的制约,垃圾评论数据数量较之前会大大减少,数据的不平衡也是本文需要解决的影响电子商务垃圾评论识别效果的一个问题。本文就电子商务垃圾评论识别研究做了如下四方面的工作:第一,确定了合理的垃圾评论识别指标。在充分研究国内外关于电子商务垃圾评论识别指标选取的基础上,总结最具权威的现有学者所选取的指标后,结合电子商务法律和法规出台政策,提出了产品名称、产品属性、评论文本的长度、评论文本中的正(负)情感词、评论内容的投票数、评论用户的信誉经验或信用等7项最能识别电子商务垃圾评论的可信度指标,将本文所选取的指标与现有学者所选指标分别在不同分类器下进行对比验证,得到了较好的验证结果。第二,对电子商务垃圾评论数据进行预处理。本文垃圾评论数据来源于聚数力大数据平台下的公开数据集,Amazon网站的Unlocked-Mobile的英文评论,数据共413670条,数据的属性共6个。对数据的预处理包括样本去重和属性过滤、人工标记、文本分词、去停用词、词干提取、产品属性词提取、从评论文本提取情感特征词、指标赋值等一系列预处理,为后续垃圾评论的识别做铺垫。第三,在数据层提出了一种改进的混合采样算法。对于多数类样本,采用改进的K-means算法,首先采用欧氏距离确定每两个样本之间的距离,从而确定簇心,然后,通过计算每个簇中样本与簇心的距离来有效地删减样本,最终选择离簇心较近的一些样本,得到新多数类的样本集合;对于少数类样本,采用改进的Borderline-SMOTE算法,首先计算多数类样本和少数类样本之间的欧氏距离,通过距离判定是否为边界样本,进而增强边界样本集合的质量,然后对边界样本采用SMOTE合成,最后得到新少数类样本集合,令所得多数类样本等于最后所得少数类样本。第四,在分类算法层提出了一种异构个体组合分类器算法。对混合采样得到的样本在朴素贝叶斯、决策树、K近邻、支持向量机和C4.5异构个体组合分类器算法下,通过对训练数据训练得到模型,然后利用此模型在测试数据中进行验证。最后将改进混合采样算法和异构个体组合分类器算法相结合的综合改进算法应用到电子商务垃圾评论的识别中,提高了垃圾评论识别的精度。通过对指标进行重新选取和对电子商务垃圾评论数据进行不平衡处理,使得垃圾评论更容易被正确识别,对理论研究和实际应用都有积极作用。