论文部分内容阅读
随着互联网技术的不断成熟以及物流产业的稳健发展,网上购物成为了越来越多人首选的购物方式。产品的评价信息反映了用户对产品的意见和态度,其具有很高的价值。一方面,产品的评论信息能够帮助其他用户提供一定的购买指导;另一方面,对产品某方面针对性的评价可以有效地改进产品性能以及提高服务质量。但是,从大量的产品评价内容中挖掘出所需要的信息是非常困难的。针对上述问题,本文对电商评价的采集以及挖掘进行了研究。本文首先采集电商网站的评价数据,并进行快速的存储。并在Scrapy框架的基础上以某网站的评价信息作为爬取对象。为满足评价系统的需要,对爬取策略进行改进。针对目标网站的访问限制和Robot协议,分别采用更换cookie和user-agent绕过限制。为满足对数据库的快速读写的需求,选用MongoDB进行存储。在评价信息挖掘之前,先对评价文本内容进行中文分词处理。本文在BI-LSTM的基础上,使用LSTMN单元对神经元替换,并结合CRF模型,提出了BI-LSTMN-CRF模型。在训练时使用Dropout防止过拟合,结果显示准确度有一定的提高。其次使用LDA模型对处理后的文本进行主题与包含方面的提取,并结合网络资源,充实了本地语料库,然后使用三层CRF模型,设定对应的特征规则,分别对文本中的情感态度以及情感强度进行了分类。通过准确度分析,该方法能够有效的对文本进行处理。最后设计了评论分析系统,本文在JFinal框架的基础上,将上述的算法进行整合并应用到系统中。在设定的产品评分规则下,对产品进行打分后排序展示,并针对用户的关注点进行了图形化展示。经过测试,文中所使用的算法能够完成对产品评论分析的目标,并能够客观的展示产品特点和用户需求。