论文部分内容阅读
随着信息技术和数据库技术的飞速发展,人们可以非常容易地获取和存储海量数据,然而要从海量数据中提取出有用信息却很困难。数据分类作为一种重要的数据分析技术,可以用于提取描述重要数据类的模型和预测未来的数据趋势,帮助人们摆脱“数据丰富,知识贫乏”的困境。入侵检测和文本分类都属于数据分类的范畴,入侵检测是根据网络数据或主机数据的特征来判别该数据代表的行为属于哪种类型,而文本分类是根据文档特征识别出其所属的文档类别。粗糙集理论是一种处理不精确、不完整和不确定性问题的数学工具,通过属性约简能有效地消除冗余信息,抽取分类规则;而神经网络也由于具有分类精度高,鲁棒性强等显著优点。因此,近年来它们都被广泛地应用于数据分类。但是,面对大规模的高维数据分类问题如入侵检测和文本分类等,基于粗糙集的分类容错性差、泛化能力弱;而神经网络作为分类器存在网络结构复杂、训练时间过长等缺陷。如何将粗糙集和神经网络有机地结合起来,并针对入侵检测和文本分类各自的领域特点进行有效地运用是本文的研究内容。针对入侵检测数据存在维数大、冗余度高及噪声数据多等缺陷,给出了一种基于粗糙集和神经网络的层次入侵检测模型。该模型用粗糙集对数据进行预处理以降低维度,以多个神经网络构成的层次分类器克服单个神经网络分类器的“稳定性/可塑性”二难问题。针对文本分类中的两个关键技术——权值计算和特征提取,给出在文本预处理阶段基于特征词类别分布差异进行特征过滤,并引入类别文档频数改进TFIDF公式,给出了一种基于可变精度粗糙理论的特征选择方法,进一步选择对分类贡献度大的特征,并用SOL实现;并采用RBF网络作为文本分类器。实验结果表明了粗糙集和神经网络的有机结合能很好地应用于数据分类。