基于不平衡数据处理的电子商务垃圾评论识别研究

来源 :山西财经大学 | 被引量 : 1次 | 上传用户:y886520520886
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,垃圾评论不断产生,垃圾评论对消费者参考购物产生了极大的干扰,同时扰乱了网络环境的正常秩序。有效识别电子商务垃圾评论对于消费者和商家来说都是一项迫切的需求。近年来,随着电商模式和电商法律的不断完善,商品评论数据的内容也在发生着变化,为了有效识别垃圾评论,在电子商务垃圾评论指标选取方面应当有所改善。同时受电商法的制约,垃圾评论数据数量较之前会大大减少,数据的不平衡也是本文需要解决的影响电子商务垃圾评论识别效果的一个问题。本文就电子商务垃圾评论识别研究做了如下四方面的工作:第一,确定了合理的垃圾评论识别指标。在充分研究国内外关于电子商务垃圾评论识别指标选取的基础上,总结最具权威的现有学者所选取的指标后,结合电子商务法律和法规出台政策,提出了产品名称、产品属性、评论文本的长度、评论文本中的正(负)情感词、评论内容的投票数、评论用户的信誉经验或信用等7项最能识别电子商务垃圾评论的可信度指标,将本文所选取的指标与现有学者所选指标分别在不同分类器下进行对比验证,得到了较好的验证结果。第二,对电子商务垃圾评论数据进行预处理。本文垃圾评论数据来源于聚数力大数据平台下的公开数据集,Amazon网站的Unlocked-Mobile的英文评论,数据共413670条,数据的属性共6个。对数据的预处理包括样本去重和属性过滤、人工标记、文本分词、去停用词、词干提取、产品属性词提取、从评论文本提取情感特征词、指标赋值等一系列预处理,为后续垃圾评论的识别做铺垫。第三,在数据层提出了一种改进的混合采样算法。对于多数类样本,采用改进的K-means算法,首先采用欧氏距离确定每两个样本之间的距离,从而确定簇心,然后,通过计算每个簇中样本与簇心的距离来有效地删减样本,最终选择离簇心较近的一些样本,得到新多数类的样本集合;对于少数类样本,采用改进的Borderline-SMOTE算法,首先计算多数类样本和少数类样本之间的欧氏距离,通过距离判定是否为边界样本,进而增强边界样本集合的质量,然后对边界样本采用SMOTE合成,最后得到新少数类样本集合,令所得多数类样本等于最后所得少数类样本。第四,在分类算法层提出了一种异构个体组合分类器算法。对混合采样得到的样本在朴素贝叶斯、决策树、K近邻、支持向量机和C4.5异构个体组合分类器算法下,通过对训练数据训练得到模型,然后利用此模型在测试数据中进行验证。最后将改进混合采样算法和异构个体组合分类器算法相结合的综合改进算法应用到电子商务垃圾评论的识别中,提高了垃圾评论识别的精度。通过对指标进行重新选取和对电子商务垃圾评论数据进行不平衡处理,使得垃圾评论更容易被正确识别,对理论研究和实际应用都有积极作用。
其他文献
目的观察针灸治疗功能性消化不良患者的临床效果。方法选择医院2013年10月至2015年9月收治的94例功能性消化不良患者作为观察对象,根据入院病历号尾数的奇偶分为试验组(50例)和
沟通管理作为管理学科的重要组成和分支部分,是一个贯穿始终的动态交互过程,在项目的规划、发展、结题等全过程中都发挥着重要的作用。其功能主要体现在:传输信息,交换信息,反馈信息等方面。通过建立有效合理的通信机制,可以尽可能减少通信中的信息,提高项目执行效率,加快项目进度,节约项目支出,确保项目中的信息精准,快速的传播与表达。本文是结合上海虹桥火车站虹桥火车站候车厅和到达层4 G容量提升项目,在充分了解
体育运动技术授予专利有可行性和必要性。我国目前鲜有体育运动技术获得专利,其原因是多方面的。体育工作者对自己创造的体育运动技术,如果符合申请专利的实质条件,应当积极
通过讨论一类含CTL免疫应答的具分布时滞的HIV感染模型,分析了在分布时滞情况下未感染平衡点及感染无免疫平衡点的全局渐近稳定性,并给出了感染免疫平衡点局部渐近稳定的充分
目的更进一步对针灸疗法在宫寒不孕症中的临床疗效进行探究。方法择取过去一年(2015年9月至2016年8月)在我院妇产科接受治疗的40例宫寒不孕女性进行回顾探究。参照盲选原则,