论文部分内容阅读
在电子商务快速发展的今天,主动性营销才可以在商品同质化泛滥的市场中让商家脱颖而出,吸引用户并切实地提高营销的用户消费转化率。传统的主动营销方式包括广告宣传和媒体传播,但这些方式拼的是流量,并且只能靠运气获取用户转化率。因此要找到一个更加有效的方法去提高用户消费转化率,关键在于如何精准的获取目标用户,并向其推送最可能购买的商品信息,而如何去获取目标用户和目标商品,就涉及到挖掘和预测的问题,这也是本文的研究内容。
在移动互联网浪潮下,用户在网络环境中的行为占据的比重越来越大,用户在互联网上的点击、浏览、购买、评论等行为已成为服务提供商非常重要的参考数据。为了实现用户行为的精准预测,本文以电商的行为数据为切入点,对数据进行分析与建模,通过不同的机器学习方法,预测用户在未来一周的购买意向以及最可能购买的商品品类,帮助商家准确定位转化率最高的用户群体,制定更精确的营销策略,进一步提高推广的销售转化率,具体建模步骤包括:
第一步,数据采集与预处理。收集登陆网站的用户基本信息和行为数据,电商的商品数据,并把相关数据转化为本发明方法要求的格式,进行异常数据清洗。
第二步,数据特征提取。通过对基础数据进行编码提取出用户基础特征、商品的基本特征。通过不同的维度对基础用户行为数据进行统计,生成统计类特征、时间间隔类特征、计算类特征;通过特征间的关系进行特征关联、融合;对行为进行分类,利用时间衰退理论,对于点击、收藏等行为进行加权处理;采用卡方过滤计算每个非负特征和标签之间的卡方统计量,选出前K个分数最高的特征的类。
第三步,正负样本处理。结合用户实际的购买数据对用户特征数据进行标记,生成正负样本数据,自动分析正负样本的不均衡情况,根据预设的正负比例对样本数据按需进行适当欠采样处理,生成正负样本子集。
第四步,模型的训练与预测。通过随机森林算法、梯度提升迭代决策树算法、极端梯度提升算法对样本数据集进行训练,生成多个预测模型结果,进行对比。
第五步,通过对比了多个模型对于单个欠采样样本的预测结果,分析了模型的局限性,为了解决正负样本的均衡性,同时充分利用样本数量优势,创新通过欠采样的方式对样本进行多次正负子样本提取,并以此作为RF算法随机采样的方式,自定义RF模型训练。
最后,对比分析第四步不同算法单欠采样样本的预测结果、第五步多个子样本训练模型的预测结果,来评估模型的合理性和改进方向。
在移动互联网浪潮下,用户在网络环境中的行为占据的比重越来越大,用户在互联网上的点击、浏览、购买、评论等行为已成为服务提供商非常重要的参考数据。为了实现用户行为的精准预测,本文以电商的行为数据为切入点,对数据进行分析与建模,通过不同的机器学习方法,预测用户在未来一周的购买意向以及最可能购买的商品品类,帮助商家准确定位转化率最高的用户群体,制定更精确的营销策略,进一步提高推广的销售转化率,具体建模步骤包括:
第一步,数据采集与预处理。收集登陆网站的用户基本信息和行为数据,电商的商品数据,并把相关数据转化为本发明方法要求的格式,进行异常数据清洗。
第二步,数据特征提取。通过对基础数据进行编码提取出用户基础特征、商品的基本特征。通过不同的维度对基础用户行为数据进行统计,生成统计类特征、时间间隔类特征、计算类特征;通过特征间的关系进行特征关联、融合;对行为进行分类,利用时间衰退理论,对于点击、收藏等行为进行加权处理;采用卡方过滤计算每个非负特征和标签之间的卡方统计量,选出前K个分数最高的特征的类。
第三步,正负样本处理。结合用户实际的购买数据对用户特征数据进行标记,生成正负样本数据,自动分析正负样本的不均衡情况,根据预设的正负比例对样本数据按需进行适当欠采样处理,生成正负样本子集。
第四步,模型的训练与预测。通过随机森林算法、梯度提升迭代决策树算法、极端梯度提升算法对样本数据集进行训练,生成多个预测模型结果,进行对比。
第五步,通过对比了多个模型对于单个欠采样样本的预测结果,分析了模型的局限性,为了解决正负样本的均衡性,同时充分利用样本数量优势,创新通过欠采样的方式对样本进行多次正负子样本提取,并以此作为RF算法随机采样的方式,自定义RF模型训练。
最后,对比分析第四步不同算法单欠采样样本的预测结果、第五步多个子样本训练模型的预测结果,来评估模型的合理性和改进方向。