论文部分内容阅读
如今,网络信息资源的获取成为人们关注的重点,有价值的信息已经成为一种新的财富资源。网络信息过滤技术作为处理和组织庞大的网络信息的关键技术,能够在较大的程度上解决信息杂乱的现象,方便用户准确地定位所需的信息。其中,特征选择方法是目前网络信息过滤领域的研究热点之一,也是本文所研究的主要内容。本文主要针对信息过滤系统中特征选择算法的相关内容,对网络信息过滤系统的研究背景进行了分析。研究了网络信息过滤系统中的关键技术,提出了一种新的方法—神经网络模型来表示文本向量空间;然后对几种特征选择方法的优缺点进行了详细的研究和分析,并对互信息方法的不足进行了改进;将改进的互信息与传统的遗传算法相结合,提出了MI-GA方法,并进行了实验的验证;最后把改进的互信息与传统的遗传算法相结合策略在网络信息过滤平台上进行了网络信息过滤的实验测试。具体研究内容如下:1、提出了神经网络方法来表示文本向量空间,可以更好的达到文本降维目的。神经网络模型指把文本的向量空间表示转化为神经网络的表示形式。通过对文本进行切词后,每一个词认为是一个神经元,将众多神经元输入到神经网络中进行优化,经过网络中间层的处理以后,输出得到最优的特征子集,这样就达到了降维的目的。采用神经网络的表示法比较合适的领域大多数是根据非常复杂的文本分类进行推理以及需要表示事件状况、性质以及动作之间的关系的领域。把神经网络应用在信息科学领域等许多方面己显示出巨大潜力和广阔的应用前景。2、针对特征选择中的互信息方法的不足进行了改进。对互信息方法的优点和缺点进行了详细分析。互信息的缺点在于,没有考虑词出现的频率,受临界特征的概率影响较大从而造成了互信息评价函数常倾向于选择稀有单词。对其不足进行了改进,并比较了新旧两种互信息方法。3、将改进的互信息与传统的遗传算法相结合,提出了MI-GA方法。提出了把改进的互信息与传统的遗传算法相结合,即MI-GA方法。从文本分类的效果出发,把MI-GA方法进行了系统验证,实验结果达到了预期目标,在查全率、准确率和F1测度三个方面都有不同程度的提高,从而有效地保证了文本分类的约简率和准确率。4、将改进的互信息与传统的遗传算法相结合策略在网络信息过滤平台上进行了网络信息过滤的实验测试。实验表明,该方法在准确率和查全率上要好于其它方法,尤其在特征维数较高时取得了令人满意的测试效果。