网页信息过滤系统的研究与设计

来源 :苏州大学 | 被引量 : 0次 | 上传用户:kezhixiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网不断地深入到人们生活的方方面面,如何对互联网上的非法网页进行过滤,给用户营造一个良好的学习和工作环境,成为一个重要的研究领域。由于当前的网页过滤系统对网页过滤的查全率、查准率、速度三个方面的存在诸多不足,为此,本文构建了一个动态的训练语料库、一个非法关键词集合和一个良好的网页向量表示方法,并在此基础上设计了一个多层次、多策略的网页过滤系统。分类算法的分类性能与训练语料库相关,高质量的训练语料库会提高分类器的性能。本文在基于密度的KNN分类器的样本裁剪算法的基础上,提出基于密度的KNN分类器的样本添加算法。并通过对训练语料库进行基于密度的KNN分类器的样本裁剪、添加算法,获得了一个动态的、密度均匀、且覆盖度较大的训练语料库。一个好的非法关键词集合应能实时的反映当前互联网上非法网页的特征,本文将基于贪心算法的非法关键词抽取算法与OCAT RA1算法相结合提出一种新的非法关键词集合抽取算法,该算法能自动获取一个合适大小的非法关键词集合,且采用该集合使用关键词过滤算法对文本进行过滤,取得了较好的过滤效果。为了对网页过滤获得更好的过滤效果,本文将网页结构和网页内容信息结合起来,构成了一个维数较小的网页表示向量,利用新的网页向量对网页采用KNN进行二值过滤,在进一步提高对网页过滤效果的同时,减少了训练网页的个数。最后,根据URL过滤、关键词过滤、KNN过滤的不同特点,构建了一个多层次、多策略的网页过滤系统。实验证明,该系统对网页过滤具有较高查全率、查准率的同时,满足了实时性的要求。
其他文献
手写体数字识别是目前模式识别领域众多研究者关注的一个热点,是信息录入的关键步骤,广泛应用于公安、税务、交通、金融、教育等行业的实践活动中。目前识别的方法是多种多样
手语是由手及手臂的运动并辅之于脸部表情及体势来表达思想的一种人体语言,是聋哑人之间进行交际的重要工具。计算机手语识别研究的目的是通过计算机及采集设备获取手语信息,
运动目标的检测与跟踪技术是计算机视觉和图像编码领域的重要研究课题之一,在安全监控、军事制导以及智能交通等方面都有着重要的研究价值和应用前景。   本文首先介绍运动
视频质量评估的研究是图像信息工程的基础技术之一。在视频通信应用中的视频传输技术,视频处理中的编码压缩技术和视频恢复技术,所有这些技术不论优劣都会在一定程度上影响到
被动测量由于对网络运行无干扰,测量数据能真实地反映网络行为,所以被广泛应用于网络测量工作和网络行为学研究。本论文的研究工作基于CERNET华东(北)地区网络中心,为了支持网络
随着计算机的发展与应用,人与计算机的交互越来越密切,人机交互技术随之应运而生并极大的改变着人们的工作和生活方式。手势交互作为人机交互技术中重要的一环也越发引起科学
访问控制技术作为支撑信息系统安全的重要技术之一,广泛应用于操作系统、数据库以及各种应用系统的安全防护之中。随着计算机网络、分布式等技术的发展,尤其是Web服务技术的
视频监控技术是计算机视觉领域一个新兴的应用方向和备受关注的前沿课题,是计算机科学、机器视觉、图像工程、模式识别和人工智能等多种学科的结晶,广泛应用于城市道路交通监
1985年Miller和Koblitz分别独立提出椭圆曲线密码体制(ECC, Elliptic Curve Cryptosystem) ,由于ECC本身计算速度快,存储空间小,带宽要求低,特别适用于Smart卡和无线应用环境
网格是继因特网之后又一次重大的科技进步,它来源于人们熟悉的电力网,代表了一种先进的技术和基础设施。网格的目标是将地理上分布、异构的高性能计算机、数据服务器、大型检