【摘 要】
:
在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环
论文部分内容阅读
在互联网提供的海量、庞杂的信息中,不良信息以不同的表现形式,从不同的角度对不同人群造成毒害或干扰。因此,对网络访问进行必要的、有效的内容过滤是营造健康、安全网络环境的重要环节。基于互联网的不良信息滤技术就是在这种情况下诞生的。互联网信息过滤(Information Filtering)是指从海量的Web文本中识别出含有不良信息的非法文本,以将其屏蔽。目前它已成为信息过滤的一个新的研究领域。文本是当前Internet上信息最主要的表现形式,中文文本过滤的相关技术是本文的研究重点。本文在对信息过滤系统的体系结构和文本过滤的原型进行研究的基础上,给出了一个基于向量空间模型的文本过滤逻辑模型。中文文本的特征项抽取和表示是中文文本过滤基础。获取中文文本的表示需经过分词、停用词处理、特征项抽取和特征项权重计算等过程,本文对这几个过程进行了详细的研究并提出了一种基于TF*IDF的特征项权重计算方法。用户信息需求模型(User Profile)是文本过滤的依据,本文探讨了获取用户信息需求的方式和方法,给出了向量空间模型下用户模板的表示方法,并对用反馈技术对需求模板进行优化进行了讨论。代理服务器在Intranet管理中具有重要作用。本文基于HTTP代理服务器在应用层实现了对Web页内容的内容过滤。并且,通过将客户机成功访问过的网页内容存储在代理服务器端,实现了Web页访问的内容重现。本文在对多种信息过滤方法进行分析研究及初步评估的基础上,为提高系统过滤不良信息的整体性能和运行速度,提出二级过滤的策略:第一级基于黑白名单过滤,第二级基于关键字的文本内容的过滤。实验证明,该方法提高了文本过滤性能。
其他文献
目标跟踪是计算机视觉研究的热点之一,它在诸如人机交互、自动导航、虚拟现实、医学诊断、自动对焦等许多领域均具有广阔的应用前景。本文的主要工作在以下几个方面:第一,讨
随着网络的发展,在中小型局域网中网络打印也迅速发展起来。同时,网络安全问题越来越受到人们的重视,随之出现的嵌入式网络安全设备也得到了广泛的应用。本文针对局域网内网
随着计算机技术的不断发展,互联网已经成为人们日常工作、生活中不可缺少的信息来源。而由于网络信息本身的特点,这些信息给用户的主要是定性的参考。特别在金融领域,一直以
随着计算机和网络技术的迅猛发展和广泛普及,企业经营活动的各种业务系统都立足于Internet/Intranet环境中。然而,企业网络环境的复杂性和多变性,以及信息系统的脆弱性,决定
随着因特网的快速发展,海量的Web数据资源已经成为人们获取知识与信息的重要来源。而随着Web信息的日益增长,人们不得不花费大量的时间去搜索浏览自己需要的信息。目前,在现
随着计算机技术的不断发展,嵌入式系统已经成为计算机领域的一个重要组成部分。作为嵌入式系统中的重要产品——PDA也随着嵌入式系统的发展而不断提高。随着嵌入式技术的迅速
安全协议,是指在通信协议中应用密码学的手段隐藏或获取信息,达到认证以及消息正确发送的目的的协议。而随着互联网的迅猛发展,安全协议的安全性成为网络安全的关键。虽然安
随着信息安全技术的发展,基于角色的访问控制技术近年来成为访问控制领域的主要研究内容之一,并且在很多企业级系统安全需求方面显示了极大的优势。研究人员已经提出了若干基
科学技术和电子计算机的飞速发展使得现阶段软件规模日益增大、软件应用领域日益扩大、客户需求日益复杂多变。例如,Windows XP操作系统的代码大约有4000万行,这使得错误更可
随着人类社会对软件系统的依赖与日俱增,以及软件系统自身复杂度的不断提升,软件的可靠性和健壮性问题也变得尤为突出。虽然国内外此方面的研究已取得很多成果,但到底如何构建高