论文部分内容阅读
多媒体通信技术发展日新月异,以互联网为载体、以运营商专用宽带网络为传输媒介的交互式网络电视(Internet Protocol TV,IPTV)成为数字化家庭的核心,具有极大的营销价值。随着IPTV业务的不断开展,为防止客户流失,运营商迫切需要通过精准预测报障用户来提前改善服务、增加用户黏度,从而实现主动运维。机器学习是智能预测的一种重要技术手段,在实际工程应用中,数据的高维非均衡性会严重影响传统算法的预测准确度,因此高维非均衡数据的处理方法是机器学习及其应用领域亟需解决的关键问题。本文主要研究面向高维非均衡数据的相关算法,并将理论应用于IPTV用户报障预测中,主要工作内容如下:(1)针对高维非均衡数据在分类过程中分类模型过于复杂且分类效果不佳的问题,借助Bagging算法的集成策略框架,在基于归一化互信息的相关性快速过滤(A Fast Correlation-Based Filter based on Normalized Mutual Information,FCBF_NMI)特征选择算法基础上,提出一种改进的面向非均衡数据的特征选择算法(Improved FCBF_NMI Algorithm,IFCBF_NMI),实现了特征的有效降维,降低了所选特征对多数类的偏向性。(2)针对相关向量机(Relevance Vector Machine,RVM)在非均衡数据集上分类效果不佳的问题,提出一种基于混合采样和参数优化的非均衡数据分类算法(LFOA-HSRVM)。该算法采用一种基于RVM相关向量的混合采样策略(Hybrid Sampling Strategy based on RVM’s Relevance Vector,HSRVM)来合理改变数据的分布情况,并在分类过程中利用具有Levy飞行特性的双子群果蝇优化算法(Double Subgroups Fruit Fly Optimization Algorithm with Characteristics of Levy Flight,LFOA)搜寻RVM核参数的最优解,克服了传统RVM在处理非均衡数据时决策边界偏向少数类的问题,极大提升了非均衡数据的分类效果。(3)针对IPTV用户报障因素复杂、故障样本相对贫瘠的问题,将改进的IFCBF_NMI特征选择算法和LFOA-HSRVM分类算法运用到IPTV用户报障预测研究中,建立集数据预处理、特征提取、分类预测为一体的IPTV用户报障预测模型。该预测模型性能稳定,准确率较高。