中文文本过滤技术的研究与实现

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：qazwsx07555

【摘要】

：

Internet技术的迅猛发展和空前普及给人们带来了诸多方便的同时，也带来了很多问题。网络在传播有用知识和信息的同时，也正在被不法分子、反动敌对势力等信息内容的发布者所利用

【作者】

：

刘艳芳

【机构】

：

北京工业大学

【出处】

：

北京工业大学

【发表日期】

：

2007年期

【关键词】

：

文本过滤串匹配潜在语义索引多模式串匹配

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet技术的迅猛发展和空前普及给人们带来了诸多方便的同时，也带来了很多问题。网络在传播有用知识和信息的同时，也正在被不法分子、反动敌对势力等信息内容的发布者所利用，传播各种敏感政治言论和不益于青少年成长的不良信息。因此，不良信息过滤受到了社会各界的关注和重视，特别是自然语言处理领域的专家学者们，而文本过滤又是信息过滤研究中的一个重要分支。本文全面分析文本过滤技术当前的发展状况及文本过滤方法的基础上，深入讨论了文本过滤的相关理论和技术，详细分析研究了各种特征抽取方法、文本表示方法和分类算法。在此基础上，阐述了基于LsI和KNN的文本分类技术，并采用以上方法实现了一种基于LsI和KNN两类文本分类的过滤技术。同时，本文还探讨了在内容过滤中广泛应用的串匹配技术。全面分析研究了各种常用的单模和多模匹配算法。在此基础上，深入研究基于Wu Manber的多模匹配算法并分析其匹配过程，提出一种改进的Wu Manber多模匹配算法，充分利用第一个匹配成功且在模式串中只出现一次的块字符在模式串中的位置信息，在不大于最小模式串长度的情况下，选择其和不良块字符的转移距离中的较大值进行转移。实验数据表明，在绝大多数情况下改进算法可以减少匹配次数，增加转移距离，提高算法匹配效率。最后，将改进的Wu Manber多模匹配算法和基于LSI和KNN的两类文本分类技术相结合，设计出一种新的文本过滤方法，并实现一个基于新方法的校园网页文本过滤原型系统。在收集的语料库上对基于新方法的系统和单独使用基于LSI和KNN文本分类的过滤方法的系统进行实验，结果显示，通常情况下前者的性能优于后者。

其他文献

相邻交叉口协调控制算法研究及微观仿真

随着经济的发展和城市化水平的提高,城市交通问题日益突出,对现有交通进行有效的管理和控制已成为我国交通运输中迫切需要解决的问题。城市交叉口把城市道路相互连接起来构成

学位

协调控制交通流预测模糊神经网络微观仿真

基于L系统的虚拟园林观赏树木生长建模研究

植物作为构成人类生存环境的最重要的一环，与我们的日常生活密切相关。随着人们对的生态环境的日益重视，以计算机为手段对植物生长进行建模与仿真己成为人们研究的热点问题。开

学位

虚拟植物3D建模L系统OpenGL

基于策略服务及RPC方式的Ajax引擎的研究与设计

随着Web技术迅猛发展，传统的Web开发技术在很多方面已经不能满足用户需求。Ajax作为一个全新的概念，在集合多个成熟技术的基础上带给用户全新的体验。Ajax引擎是Ajax的核心，目前

学位

Ajax引擎远程过程调用策略服务异步数据通信

基于XML的iBAC网络管理系统的研究与开发

当前，通信发展的宽带化、无线化、个人化、分组化是一种大势。同有线接入系统一样，无线接入系统经历了由窄带到宽带、由面向话音业务到面向数据、多媒体业务的转变。随着数据业

学位

宽带接入iBAC网络管理XML

中文新闻语料中的时间短语识别方法研究

在自然语言中，时间信息是一种重要的信息，它是一个事件的重要组成部分，研究表明，它在文本信息中所占的比重仅次于专有名词。在日常生活中，当人们阅读一篇新闻时，他们总是要把文

学位

时间短语识别模式匹配事件时间短语决策树自然语言处理

轻量级工作流在PLM系统中的应用

工作流技术是实现业务过程自动化的关键技术，逐渐成为这些年研究热点。作为过程建模和过程管理的核心技术，它可以与其它系统有效地结合，生成符合企业需求的各种业务管理系统。传

学位

轻量级工作流管理系统PLM中小企业信息化

并行串匹配算法研究

随着网络的迅猛发展，网络安全的重要性也日益凸显，对网络内容的检测成为网络安全体系中不可或缺的一部分。海量数据的处理和层出不穷的应用需求使网络内容检测技术面临着严峻的

学位

字符串匹配并行算法GPUAC算法Trie树

基于统计过程控制的软件质量度量模型研究

随着计算机技术的不断发展,特别是互联网技术的广泛应用,提高软件质量的呼声越来越强烈,但同时软件项目的开发周期和开发规模却不断增长,软件开发的风险和管理的难度也在不断

学位

统计过程控制软件度量软件质量基线

基于管理Agent的协作式入侵检测技术的研究

随着计算机技术和Internet的飞速发展，计算机系统已经由独立的单机模式转向开放、互联的网络环境，网络安全和信息安全问题日益突出，网络上各种攻击事件不断发生，相应地，各种安全措

学位

入侵检测协作Agent管理Agent信誉度集成学习CIDBMA

RBAC在考试系统中的应用研究

随着网络的迅速普及和网络应用日益深入社会生活各个层面，网络应用的安全性问题成为制约其发展的主要因素之一。在管理大量的网络系统时，安全管理的复杂性是个很具挑战性的问题

学位

访问控制角色RBACGTRBAC考试系统

中文文本过滤技术的研究与实现

其他学术论文