论文部分内容阅读
网络购物连续十几年在中国屡创新高,频繁交易生成了海量的在线商品评论,一方面,为商家分析消费者购物偏好提供了庞大的数据库,为用户提供了全面的购物决策信息;另一方面,海量的数据也带来了信息筛选的低效率。全面考虑在线商品评论的信息特征,根据用户的信息采纳偏好对商品评论有效性进行排序,将最精准的在线评论信息推送给用户,有助于在线交易平台和商家提高用户购买满意度、增加用户信任度,形成持续竞争力。目前对于在线商品评论的研究主要选择单一类型的商品评论,侧重于某些评论指标的有效性分析,对在线评论有效性影响因素的筛选主要采用问卷调查等偏主观的研究方法,并没有选择能高效处理大数据的机器学习算法对海量的在线商品评论有效性影响因素进行系统筛选,本文结合已有领域研究成果,主要工作如下:第一,基于信息质量理论完善在线商品评论指标体系;第二,基于机器学习方法,提取影响在线商品评论有效性的关键指标。本部分设计爬虫程序,获取京东商城体验型商品评论15169条,搜索型商品评论19782条,分别建立多元回归模型、支持向量机递归特征消除模型和随机森林递归特征消除模型,对在线商品评论有效性指标进行提取,以均方根误差和模型拟合度R方为标准,比较三个模型的结果,得出随机森林模型下的特征组合最优,其中体验型商品影响因素5个,搜索型商品影响因素7个;第三,在线商品评论有效性预测。分别以有效在线商品评论的全部影响因素和关键影响因素作为输入变量,选取随机森林模型、支持向量机模型、神经网络模型、逻辑回归模型,将评论分为“有用”、“无用”两类,通过查准率、查全率、F值评价出最优预测模型。结果显示,基于关键影响因素的随机森林模型预测效果最好。为了进一步验证,本文以随机森林模型对评论有效性分类的准确率作为辅助排序,并邀请用户对原有排序和现排序打分,结果表明推荐排序得到了82.5%用户的认可。