基于Spark平台的通信网用户流失预测研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:chinasee_liang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着移动通信技术的高速发展,移动通信网的通信用户数量急剧增长,通信市场接近饱和,电信运营商之间的竞争也日益激烈。同时,已经接近饱和的市场使得运营商们更加关注用户资源流失的问题。对于通信运营商而言,通过利用通信用户使用移动终端时产生的各种数据,可以预测出潜在的流失用户,并对这些潜在的流失用户进行挽留,从而可以维持市场份额和利润。因此,用户流失预测问题的研究对于通信运营商而言,有着重要意义。本文从神经网络算法的训练速度和特征的选取两个方面来对通信网用户流失预测问题进行深入研究。首先针对BP(Back Propagation)神经网络算法进行研究。BP神经网络算法有两种权重更新策略,单样本(Individual)更新和批样本(Full-Batch)更新。对于Full-Batch BP神经网络算法,每更新一次权重需要对样本集中所有的样本都进行计算,因此,该算法的训练过程非常耗时,但是它可以并行实现。对于Individual BP神经网络算法,每更新一次权重仅需要对样本集中的某一个样本进行计算,因此,该算法的权重更新很快,但它不能并行实现。通过结合Full-Batch BP和Individual BP两种神经网络算法,我们提出了基于Spark平台的Mini-Batch BP神经网络分布式算法来改善传统的两种BP神经网络算法的性能。实验证明,和Full-Batch BP神经网络算法相比,Mini-Batch BP神经网络分布式算法在不失预测准确率的情况下,其训练时间大大减小。接下来,对Mini-Batch BP神经网络分布式算法的参数K的取值进行探讨。通过实验发现K的取值对训练时间有较大影响,并且得到了一个针对最优的K的取值的定性的结论。然后针对通信网用户流失预测问题的特征选取进行研究。首先提取了七个特征,其中六个用户通话行为特征和一个用户相关性特征。用户相关性特征是流失用户给他的邻居用户带来的影响。我们使用激活扩散算法去提取这个特征。随后,分别使用前六个通话行为特征和所有的七个特征来作为训练集进行训练并预测。实验结果表明,在加上了一个用户相关性特征后,预测性能会有所提升。接下来,从对用户之间的相关性统计和特征的相对重要性两个方面证实了用户相关性特征的作用。最后,通过结合两个研究点,针对用户流失预测问题提出了一个快速精确的预测模型。本论文中使用的Mini-Batch BP神经网络分布式算法可以在实际训练和预测的过程中加快速度,帮助快速及时的预测出流失用户。同时,用户相关性的特征也能有效提高预测精度。因此,本文提出的快速精确的预测模型对于流失用户预测的实际应用场景具有重要意义。
其他文献
印染废水由于其自身水质变化大、污染物成分复杂、有机物含量高、色度高等问题,使其成为较难处理的一类废水。光催化氧化技术由于其高效、彻底、稳定等优点而成为目前研究应
克深2-1-14 井是塔里木盆地库车坳陷克拉苏构造带上的一口重点天然气开发井,完钻井深为5 541 m.该井地质结构复杂,第四系、新近系和古近系上段苏维依组为易吸水膨胀坍塌的泥
随着经济全球化的发展,跨国交流越来越广泛和普遍,交流内容从政治、经济到文化、教育,涵盖了社会生活的各个领域。就学术领域而言,为掌握更多更全面的资料信息和研究成果,对
为研究鸡柔嫩艾美尔球虫(E.tenella)HAP2(hapless2/generative cell-specific)蛋白的抗原性,根据Gen?Bank发表的HAP2基因的cDNA序列(Gene ID:25252561)ORF设计1对引物,用RT-P