论文部分内容阅读
现在网络极大地改变了人们表达自己和与他人互动的方式,已经成为最主要的信息检索方式。正因如此,向HTML页面或其他网络文件添加信息也变得越来越容易,同时用户就会更难分辨准确和不准确的信息或可信赖和不可靠的信息,因此创建一个有效的垃圾网页检测方法是当前面对的一大挑战。如今垃圾网页检测的主要工作在于检测基于内容作弊和链接作弊的垃圾网页。现有垃圾网页的检测方法通常利用网页单一视图的特征对其是否属于垃圾网页进行分类,而将垃圾网页两个方面的特征同时用于检测的多视图学习手段,可以使垃圾网页检测问题更为全面。本文围绕多视图学习,针对垃圾网页检测的问题,对多视图学习的特征提取方法、分类方法以及网页具体链接结构等进行研究,具体研究成果如下:(1)将垃圾网页数据集基于内容和链接的特征看作此检测问题的两个不同的视图,首先应用典型相关分析和其他改进方法提取特征,用转换矩阵得到两视图上相关性最大的投影方向的特征。然后使用不同的针对两视图特征的组合方式将两视图特征合为一个特征,使用新的单视图特征来训练分类器进行分类。实验结果显示把垃圾网页检测作为多视图分类问题即看成两个视图的数据使用典型相关分析方法,可提高分类精度。(2)由于垃圾网页检测问题中只有少量标记网页,因此可使用半监督协同训练方法进行垃圾网页检测。将网页特征分为内容和链接两个视图。在进行具体的分类步骤之前使用独立成分分析,提取两个视图特征的独立成分,具体的分类步骤是由协同训练实现的。实验结果显示这种特征提取和半监督分类的组合能够提高垃圾网页检测精度,对两个视图分别进行独立成分分析也更为有效。(3)利用网页链接结构修改SVM分类器,首先利用直接链接矩阵和间接链接矩阵来构建保持链接结构的类内散布矩阵,然后将网页链接结构组合到SVM分类器中来重新配置一个优化问题。此方法在利用网页链接信息方面具有优势。垃圾网页数据集上的实验结果表明将网页链接结构与SVM分类器组合可以显著地优于其他相关方法,实验还显示了分类准确率随间接链接步长的变化。(4)通过严密考虑内容与链接两视图特征的不同构造和统计特性来解决这个问题。分别针对内容及链接特征重构特征提取方法PCA和LPP,然后将它们组合到本文的方法中,从多视图表示的多视图嵌入中提取出一个一致的模式。通过一个迭代算法,可以求出每个视图的不同的嵌入表示以及从每个视图到一致模式的转换矩阵。同时提供了一个计算测试样本的一致模式的方法。WEBSPAM-UK2006和WEBSPAM-UK2007数据集上的实验结果显示使用一致模式来解决垃圾网页检测问题优于其他相关的降维方法。