论文部分内容阅读
在过去的二十年里,网上购物从无人问津发展到人人网购,这足以说明电子商务现已处于比较成熟的阶段,它的出现将消费者的购物方式从线下变为线上,方便了消费者的购物同时也带来了新颖的购物方式。2019年双十一购物节天猫平台的交易额达到了2684亿元,同比增长了25.71%,说明网购用户规模在不断扩大,网购在人们日常生活中越来越重要。对于网购消费者来说,首先通过浏览商品的网页信息来选择自己意向的商品,而这些信息对网购消费者的选择和电商经营者的营销方案的制定会有重要的影响,如果能够很好的利用这些信息,可能会为购买者提供更加优质的服务,也可能会为卖家营销决策提供指导,因此,有效的利用商品的网页信息,挖掘其中隐藏的价值是具有一定的现实意义的。由于网页数据的数量庞大且其内容比较繁杂,获取这些杂乱分布在网页的数据信息并不容易,所以高效准确的获取需要的网页信息成为本研究的首要内容,而基于网络爬虫技术的发展,为本文获取网页数据提供了技术支持。本文将使用Python获取电商网页的数据并对爬取的数据使用数据挖掘方法对其分析,期望能够发现其中隐藏的有价值的信息,可以为电商运营团队的决策提供帮助。电商网页信息分析主要包括数据的爬取和对数据的分析。本文对当当网网页信息的分析主要内容有:其一使用python设计一个基于Scrapy框架的爬虫,详细介绍了爬取网页中的书籍名、作者、销售量等信息的方法和将爬取网页信息储存在My SQL数据库中的过程,以便为后面的网页信息进行挖掘打好基础。其二对爬取的数据使用适当的方法对其分析,主要有对数据做了描述性分析,对数据进行预处理、文本向量空间构建、最佳聚类数的确定、使用k-means聚类算法对文本数据进行分析,最后对输出结果进行了解释,从而挖掘文本信息中所蕴含的价值。