论文部分内容阅读
收视率反映了节目的受欢迎程度,是节目编排和广告投放的关键参考指标,对于视听生态有着重要的经济和社会影响。低收视率时代,主观或客观原因导致的少量抽样样本数据污染,即可对收视率结果带来颠覆性变化。因此,收视率的可信性备受质疑。近年来,随着广电行业大数据技术的发展和应用,使得通过全量收视数据进行精准收视率的计算成为可能。然而,虽然在国家级层面实现了收视率计算环节的可信,仍然无法消除视听运营商数据源头污染的可能性。论文针对收视数据运营商侧源端可信性问题,提出了一种抽样数据集与上报数据集比对的源端数据异常检测方法。首先,论文提出了源端数据异常检测总体框架。通过数据探针的方式,在运营商侧随机、抽样形成一个大数据化的抽样数据集,对抽样数据集和运营商上报数据集进行数据清洗和预处理,得到用户在某时间域上的收视行为的规范化表示。在聚类维度和统计维度两个方面,对两个数据集进行分析,判断出数据集的差异情况。其次,在聚类维度,提出了 KNNP-DBSCAN算法,解决了传统DBSCAN算法选取参数困难和时间效率低的问题。KNNP-DBSCAN算法能够自动确定最优参数,并且基于网格划分实现了并行化改进。通过在常用的人工数据集上和收视数据集上进行实验和仿真,证明了本论文算法能够保证聚类效果的稳定性,具有较明显的性能优势。第三,在统计维度,分别进行标准统计分析和分布统计分析,在标准统计方面从数据集的总体状况评估数据集的差异程度,计算期望值、标准差、偏度以及峰度。在分布统计分析方面,针对收视数据集的分布和采集特点,提出基于固定间隔和权重函数的改进双样本K-S检验方法,对数据样本进行离散化表示,经过实验表明该方法在收视数据集上具有较高的功效性,可以用于判断两个数据集的分布性差异情况。最后,通过在收视数据集上的实验,验证了论文提出的收视数据集异常检测方法的有效性。