论文部分内容阅读
博客(Blog)作为一股正在迅速崛起的新的网络变革力量,它的出现丰富和改变了网络的内涵,影响了人们的信息传递方式,在最近几年的时间里迅猛发展,对人们的影响也越来越大。而随着博客的兴起,垃圾博客及垃圾博客评论随之而生,其带来的问题也日益显现了出来,大量博客内容中出现了各种各样的不健康内容,严重的玷污了网络环境,同和谐社会的理念相悖,引起了相关人士和技术界的关注。由于博客写作没有传统媒体的监督审查和监管体系,因此对博客及其评论内容的管理、监督、内容审计已成为信息安全技术的重要内容之一。 文中首先介绍了博客内容审计的研究现状,在分析国外支持向量机技术以及国内关键词和人工审计相结合方法进行垃圾博客识别和审计的基础上,提出将信息过滤技术引入到博客内容审计策略中,同时结合多种审计算法和博客特点的分析,选择贝叶斯算法作为博客内容审计的主要方法,对贝叶斯算法在博客内容审计中的应用进行详细的理论阐述以及同关键词技术的性能对比,且有效地解决了针对贝叶斯算法中遇到的溢出问题;其次对贝叶斯算法中特征词对应概率的数据查找方法进行优化,满足了博客实时性审计的需求;再次,分析了垃圾博客评论产生的原因、特点和现有解决方法,针对博客评论中广泛存在的广告机器人现象,在贝叶斯算法的基础上结合信息指纹技术,提出了一种博客评论审计的混合策略,该策略通过计算评论的指纹或评论经网址模式匹配后出的网址指纹来进行快速判断,无法判断的再使用贝叶斯过滤。对新方法进行了理论分析,并对信息指纹技术进行了讨论,新方法可以有效的提高过滤速度,而且也可以有效的发现博客评论中广泛存在的广告机器人行为,并进行处理和控制。最后,针对全球最大的开源网站上提供的一个博客系统(DLOG),应用所研究的技术实现了对其博客内容的审计。通过实验进行验证和分析,新方法的应用具有良好的科学性、合理性,审计速度有较大的提高,取得了良好的应用效果。 对博客内容进行审计已经成为受到人们越来越关注的重要问题之一,对于网络信息规范管理及和谐社会的建立也具有十分重要的意义。