基于改进DBSCAN算法和K-S检验的收视数据集异常检测方法

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:hhzzmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
收视率反映了节目的受欢迎程度,是节目编排和广告投放的关键参考指标,对于视听生态有着重要的经济和社会影响。低收视率时代,主观或客观原因导致的少量抽样样本数据污染,即可对收视率结果带来颠覆性变化。因此,收视率的可信性备受质疑。近年来,随着广电行业大数据技术的发展和应用,使得通过全量收视数据进行精准收视率的计算成为可能。然而,虽然在国家级层面实现了收视率计算环节的可信,仍然无法消除视听运营商数据源头污染的可能性。论文针对收视数据运营商侧源端可信性问题,提出了一种抽样数据集与上报数据集比对的源端数据异常检测方法。首先,论文提出了源端数据异常检测总体框架。通过数据探针的方式,在运营商侧随机、抽样形成一个大数据化的抽样数据集,对抽样数据集和运营商上报数据集进行数据清洗和预处理,得到用户在某时间域上的收视行为的规范化表示。在聚类维度和统计维度两个方面,对两个数据集进行分析,判断出数据集的差异情况。其次,在聚类维度,提出了 KNNP-DBSCAN算法,解决了传统DBSCAN算法选取参数困难和时间效率低的问题。KNNP-DBSCAN算法能够自动确定最优参数,并且基于网格划分实现了并行化改进。通过在常用的人工数据集上和收视数据集上进行实验和仿真,证明了本论文算法能够保证聚类效果的稳定性,具有较明显的性能优势。第三,在统计维度,分别进行标准统计分析和分布统计分析,在标准统计方面从数据集的总体状况评估数据集的差异程度,计算期望值、标准差、偏度以及峰度。在分布统计分析方面,针对收视数据集的分布和采集特点,提出基于固定间隔和权重函数的改进双样本K-S检验方法,对数据样本进行离散化表示,经过实验表明该方法在收视数据集上具有较高的功效性,可以用于判断两个数据集的分布性差异情况。最后,通过在收视数据集上的实验,验证了论文提出的收视数据集异常检测方法的有效性。
其他文献
新闻的情感信息对于金融领域具有重要参考价值,短新闻内容精炼,尤其是新闻快讯更能够反映重大的新闻。随着短新闻的传播载体从纸媒到互联网的改变,金融领域开始尝试将其情感信息以计算机可以理解的形式提供给具体业务场景使用。但目前缺乏金融新闻情感分析的数据集,从而缺乏相应的情感自动标注方法,而且现有的提供新闻情感信息的产品不能满足本系统的需求。因此需要构建系统,标注金融短新闻的情感信息,辅助金融短新闻分析员进
卫星通信作为空天地一体化网络的重要组成部分,是陆地通信系统的延伸和补充,也是国家经济发展和军事科学重要战略制高点。随着业务量增长和星上可用频谱资源的持续消耗,高通量卫星(High Throughput Satellite,HTS)系统通过点波束实现多个高增益、窄波束共同覆盖较大区域,并且通过频率复用技术有效提升了卫星频谱资源利用率和数据吞吐量。然而,随着多媒体业务崛起带来频谱资源需求上涨问题,HT