基于SVM算法的web分类研究与实现

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:zeroorhero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球互联网的普及,世界已经进入到一个高速信息化时代。在互联网上,web信息每天以几何级数增长,通过网络,人们可以很方便地浏览和共享巨大网络资源,然而与此同时网络上消极、不健康内容迅猛增长,影响国家安定团结,人们希望通过对网页进行内容识别和分类过滤,实现用户上网行为控制,营造和谐洁净的网络环境。随着文本分类研究及应用的逐步深入,Web分类成为数据挖掘一个重要的研究方向。本文主要研究Web分类算法,并对SVM算法进行了改进,应用在基于安全网络网关(SIG)和统一威胁管理(UTM)的电信项目中的URL过滤,具体内容有以下几个方面:(1)对Web分类模型的研究。本文研究的Web分类是对HTML页面的数据挖掘,通过研究分析web数据挖掘的来源、页面预处理、常用分词算法、文本特征词的提取与训练以及分类器的训练,来从整体流程上把握Web分类的模型。(2)研究包括决策树、K-最近邻、朴素贝叶斯的Web分类算法。介绍了决策树算法中较为典型的二叉树分类器的生成和修剪,同时研究基于概率论模型的朴实贝叶斯分类算法和数据挖掘领域中小样本分类应用较多的K-最近邻分类算法。(3)重点研究基于统计学理论,适用于空间维度较高的支持向量机分类算法。考虑到Web分类涉及种类繁多,并且近些年SVM多分类算法已得到广泛验证,本文对SVM多分类算法进行了比较,对其增量学习算法进行了初步探讨。(4)对于分类器的训练本文在强大统计理论支撑的SVM多分类器基础上不断修改核函数,得到最优分类器,由于实际分类过程中是增量学习的过程,而单一的SVM算法可能引起重分类或者空分类问题,所以我们对其进行改进,结合经典SVM分类算法和效率较高的KNN算法对URL进行分类过滤,实验证明,改进后SVM算法无论在查准率还是查全率上都有很大的提高,有效过滤了不健康URL,净化网络内容,实现“绿色上网”
其他文献
最近邻查询是空间数据查询领域中最重要的查询技术之一,在地理信息系统(GIS),计算机辅助设计与制造(CAD/CAM),智能识别系统,多媒体的应用等各个方面都有广泛的应用。同时随着
随着数字图像技术的发展,人们对图像质量的要求越来越高。我们总希望能在最低的代价下得到尽可能多的信息。图像分辨率越高,越清晰,就能带给人们越多的信息。可是由于成像系统受
随着农业技术的发展,在农业生产中人们大量使用化肥、农药来提高农作物生产效率。据国家环保部门数据显示,我国是世界上化肥、农药使用量最大的国家。化肥、农药年施用量分别
对于大于1的整数r,在本文中我们介绍了厚r-敏感性、多重r-敏感性及块厚r-敏感性,给出块厚r-敏感的极小系统的一个等价刻画,并获得了极小系统为厚r-敏感的充分条件。同时,对多重r-