多视图学习在垃圾网页检测中的应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:galen621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现在网络极大地改变了人们表达自己和与他人互动的方式,已经成为最主要的信息检索方式。正因如此,向HTML页面或其他网络文件添加信息也变得越来越容易,同时用户就会更难分辨准确和不准确的信息或可信赖和不可靠的信息,因此创建一个有效的垃圾网页检测方法是当前面对的一大挑战。如今垃圾网页检测的主要工作在于检测基于内容作弊和链接作弊的垃圾网页。现有垃圾网页的检测方法通常利用网页单一视图的特征对其是否属于垃圾网页进行分类,而将垃圾网页两个方面的特征同时用于检测的多视图学习手段,可以使垃圾网页检测问题更为全面。本文围绕多视图学习,针对垃圾网页检测的问题,对多视图学习的特征提取方法、分类方法以及网页具体链接结构等进行研究,具体研究成果如下:(1)将垃圾网页数据集基于内容和链接的特征看作此检测问题的两个不同的视图,首先应用典型相关分析和其他改进方法提取特征,用转换矩阵得到两视图上相关性最大的投影方向的特征。然后使用不同的针对两视图特征的组合方式将两视图特征合为一个特征,使用新的单视图特征来训练分类器进行分类。实验结果显示把垃圾网页检测作为多视图分类问题即看成两个视图的数据使用典型相关分析方法,可提高分类精度。(2)由于垃圾网页检测问题中只有少量标记网页,因此可使用半监督协同训练方法进行垃圾网页检测。将网页特征分为内容和链接两个视图。在进行具体的分类步骤之前使用独立成分分析,提取两个视图特征的独立成分,具体的分类步骤是由协同训练实现的。实验结果显示这种特征提取和半监督分类的组合能够提高垃圾网页检测精度,对两个视图分别进行独立成分分析也更为有效。(3)利用网页链接结构修改SVM分类器,首先利用直接链接矩阵和间接链接矩阵来构建保持链接结构的类内散布矩阵,然后将网页链接结构组合到SVM分类器中来重新配置一个优化问题。此方法在利用网页链接信息方面具有优势。垃圾网页数据集上的实验结果表明将网页链接结构与SVM分类器组合可以显著地优于其他相关方法,实验还显示了分类准确率随间接链接步长的变化。(4)通过严密考虑内容与链接两视图特征的不同构造和统计特性来解决这个问题。分别针对内容及链接特征重构特征提取方法PCA和LPP,然后将它们组合到本文的方法中,从多视图表示的多视图嵌入中提取出一个一致的模式。通过一个迭代算法,可以求出每个视图的不同的嵌入表示以及从每个视图到一致模式的转换矩阵。同时提供了一个计算测试样本的一致模式的方法。WEBSPAM-UK2006和WEBSPAM-UK2007数据集上的实验结果显示使用一致模式来解决垃圾网页检测问题优于其他相关的降维方法。
其他文献
本文主要研究了面向交通应用的视频监视的基本理论和关键技术。重点研究静止背景下运动目标的检测和提取,运动目标阴影的检测,以及运动目标跟踪等方面的研究内容。 在静止
网格技术是近年来从广域网络计算,特别是广域网的高性能计算发展而来的一种技术。网格被认为是信息技术发展的下一波大浪潮,它使用户能够协同地使用地理上分布的各种资源,达到资
网络技术的飞速发展使网络能够提供更多的多媒体业务,也使得支持“点到多点”或“多点到多点”的多播通信方式成为网络支持多媒体业务的必要形式。多播路由是网络层具备的功能
随着网络技术及其应用的不断发展,各种黑客工具和网络攻击手段也随之倍出,网络安全问题显得越来越重要。拒绝服务攻击以其易实施、难以防范、难以追踪等特点成为最难解决的网
如何在分布式异构环境下实现异构数据的交换,是当前研究的热点问题,并已提出了多种跨网络数据交换实现技术。但当前技术运用于松散耦合,跨地域的分布环境均存在这样或那样的问题
随着制造技术的发展和人们生活水平的提高,人们对个性化产品的需求日益增长,大批量生产逐渐成为制造业的主流生产方式。变型设计作为大批量生产的关键技术之一,是影响产品设
任务调度是网格计算中最基本、最关键,也是最具有挑战性的问题之一,是影响网格计算执行效率的一个关键因素。因此,调度算法的设计要精益求精。在算法设计过程中,必须通过对算法进
近两年来IPv6的研究在国内进展迅速,网络管理是网络正常运行的必要保障,目前IPV6网络管理系统商用解决方案仍然空白,国内外在此领域的研究也还没有商用的解决方案,随着IPV6网迅速
随着信息化进程的深入和互联网的迅速发展,信息安全越来越重要。公开钥密码系统或非对称密码系统是实现和保障信息安全的一种重要方式。基于NP完全问题的背包公钥密码和基于
网络攻击问题随着网络的普及而日益突出。入侵检测技术通过对网络安全审计数据进行分析和处理来发现网络中的入侵活动和入侵者,在网络安全领域起到了重要的作用。其关键和核心