基于粗糙集和神经网络的数据分类技术研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:david_lau82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和数据库技术的飞速发展,人们可以非常容易地获取和存储海量数据,然而要从海量数据中提取出有用信息却很困难。数据分类作为一种重要的数据分析技术,可以用于提取描述重要数据类的模型和预测未来的数据趋势,帮助人们摆脱“数据丰富,知识贫乏”的困境。入侵检测和文本分类都属于数据分类的范畴,入侵检测是根据网络数据或主机数据的特征来判别该数据代表的行为属于哪种类型,而文本分类是根据文档特征识别出其所属的文档类别。粗糙集理论是一种处理不精确、不完整和不确定性问题的数学工具,通过属性约简能有效地消除冗余信息,抽取分类规则;而神经网络也由于具有分类精度高,鲁棒性强等显著优点。因此,近年来它们都被广泛地应用于数据分类。但是,面对大规模的高维数据分类问题如入侵检测和文本分类等,基于粗糙集的分类容错性差、泛化能力弱;而神经网络作为分类器存在网络结构复杂、训练时间过长等缺陷。如何将粗糙集和神经网络有机地结合起来,并针对入侵检测和文本分类各自的领域特点进行有效地运用是本文的研究内容。针对入侵检测数据存在维数大、冗余度高及噪声数据多等缺陷,给出了一种基于粗糙集和神经网络的层次入侵检测模型。该模型用粗糙集对数据进行预处理以降低维度,以多个神经网络构成的层次分类器克服单个神经网络分类器的“稳定性/可塑性”二难问题。针对文本分类中的两个关键技术——权值计算和特征提取,给出在文本预处理阶段基于特征词类别分布差异进行特征过滤,并引入类别文档频数改进TFIDF公式,给出了一种基于可变精度粗糙理论的特征选择方法,进一步选择对分类贡献度大的特征,并用SOL实现;并采用RBF网络作为文本分类器。实验结果表明了粗糙集和神经网络的有机结合能很好地应用于数据分类。
其他文献
随着企业信息化的不断扩展,企业业务流程趋于更加复杂,需要引入工作流技术支撑业务流程的信息化。在经济全球化的大趋势下,企业之间的重组和合并成为企业发展和壮大的必然的趋势
本文从保证企业分布式组件信息系统资源的安全角度,分析和跟踪了国外分布式安全和应用服务器的最新进展,研究了基于J2EE的分布式组件系统的安全机制,剖析分布式组件系统的网络编
随着数学地质学科和计算机技术的发展,以二维等值线图为代表的二维显示方法得到了很大的提高。其他种类的二维图形,如张贴图、影像图、基面图、渐变地形图和矢量图等,也到了长足
产品数据管理(PDM)技术以软件为基础,是一门管理所有与产品相关的信息(包括电子文档、数字化文件、数据库记录等)和所有与产品相关过程的技术。它提供产品全生命周期的信息管
Web应用是全球信息基础组织的重要组成部分,因此,必须保证其行为的正确性,彻底检测其功能。已有一些辅助自动检测错误的工具,如VeriWeb等。此外,研究者也提出很多方法,用来验证其功
计算机断层成像技术作为一种无损检测技术已在众多领域得到应用。与传统的二维CT相比,锥束CT具有射线利用率高、扫描时间短以及Z轴方向分辨率高等诸多优点,成为当今国际CT研
随着数字音视频及多媒体技术的发展,迫切需要压缩巨大的视频信号数据量,适用于不同应用领域的MPEG-1、MPEG-2、MPEG-4、H.26x等国际编码标准应运而生。码率控制作为一项重要
油藏特性识别在油藏描述中扮演着重要的角色。传统的油藏描述方法有多种,但大部分都是基于统计学及经验公式;而且参数数量多、维数高,存在很大的随机性和不确定性等。为了克服这
应急资源调度问题是灾害应急管理中的关键问题,主要研究如何让分散的资源尽快到达应急地点。而随着应急资源调度不断在灾害应急、联盟形成、智能计算、智能决策等领域的广泛
近年来,互联网上涌现出大量结构化的表格数据,网络表格的价值不仅在于数据本身,还在于数据之间的关系。只有探测出表格之间潜在的关系,方能更好地利用这些结构化的数据。然而