面向运营商IPTV数据集的用户报障行为预测研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:sun383407949
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从交互式网络电视(IPTV)长远商业发展来看,保证良好的用户体验质量是运营商吸引用户群体,增加收益的关键所在,也是行业竞争的关键所在。本论文基于运营商IPTV机顶盒采集到的状态数据和用户的报障数据,对获得的两个数据集进行数据清洗和匹配,从中选择合适的关键绩效指标(KPI)特征。接着,针对获得的KPI数据集在分析、处理上的困难,本文从两个方面对现有的机器学习模型和算法进行了改进,建立了用户报障行为预测模型,可以有效提升预测性能。一方面,为了从原始特征中挑选出最有效的特征子集,达到去除冗余信息、降低模型复杂度的目的,本论文提出了一种利用PCA主成分矩阵进行特征选择的算法。具体而言,除了考虑每个原始特征对整个主成分的贡献度之外,也考虑到对应的主成分所占的贡献率和原始特征自身的信息增益对特征筛选的贡献,提出一种计算特征贡献度的新算法。实验结果表明,所提出的利用PCA主成分矩阵进行特征选择的算法可以进一步降低特征之间的相关性,增加后续预测算法的精度。另一方面,针对数据集建立模型的困难,本论文首先提出了改进的SMOTE算法来对少数类样本进行过采样。接着,提出利用基于K-means++算法的欠采样算法去除多数类中的冗余信息,并选择决策树作为基分类器,从而建立面向运营商IPTV数据集的用户报障预测模型。实验结果表明,改进的SMOTE算法与相比于传统Borderline-SMOTE数据生成算法可以有效改善IPTV报障预测模型的预测准确率;此外,基于K-means++算法的欠采样算法与传统的随机欠采样算法相比,能够更好地去除冗余信息,提升用户报障行为预测性能。
其他文献
(文接上期)$$凡建设项目实施后,导致其压覆区内已查明的重要矿产资源不能开发利用的,都应按本规定向自然资源主管部门申请报批。未经批准,不得压覆重要矿产资源。同时,经批准可压覆
报纸
文章结合Web服务的基本组件和协议,说明了如何利用现有的安全技术和设施来确保Web服务的安全,并着重指出了如何在Web服务环境中添加一些基本的保护机制和安全信息.在此基础上
党的十八大以来,我国发展仍处于可以大有作为的重要战略机遇期,也面临诸多矛盾叠加、风险隐患增多的严峻挑战。新的历史条件下治国理政,一个基本方略就是准确判断民族复兴前景与
报纸
海事英语属于专门用途英语,既具有普通英语的共性,又具有海事英语的专业语言个性。本实践报告所选取的翻译材料为海上安全委员会第98届会议第6议题《目标型新船建造标准(GBS)
目前,我国经济发展进入“新常态”,经济增速不断放缓,“人口红利”逐渐消失,经济体制改革的重点转向了经济结构的优化调整和产业结构的转型升级。在这一过程中,资源错配问题
落叶松(Larix spp.)是我国东北、西北、华北及南方亚高山区重要速生用材树种。据第七次全国森林资源清查数据,我国现有落叶松总面积1063万hm^2,其中人工林约286万hm^2,占全国人
经济全球化为世界带来了很大的机遇和发展条件,也带来了很大的挑战。面对巨大的挑战和机遇,不同的国家和地区都有自已的特点和对策。时中国来说,在信息技术日新月异的今天,怎
生物化学知识点繁多,代谢途径复杂反复,如何提高学生学习的积极性主动性一直是生物化学教学的重点。随着信息化的发展,微课逐渐进入高校教学课堂,医学院校教师应该抓住契机,
随着我国政府所倡导的绿色建筑和节能型社会的建设要求,建筑物中央空调系统因其在能耗与制冷采暖效果上的优势,开始逐步取代分体式空调,尤其是在大体量的公共建筑中可以随处
中国摄影报“走进台儿庄”影友联谊会最近在山东枣庄台儿庄圆满结束。笔者有幸参加活动并聆听了摄影专家关于摄影图片后期制作的专题讲座。看到一幅幅“废片”经过后期的回春
期刊