文本特征选择在网络信息过滤系统中的应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:jiangjia09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如今,网络信息资源的获取成为人们关注的重点,有价值的信息已经成为一种新的财富资源。网络信息过滤技术作为处理和组织庞大的网络信息的关键技术,能够在较大的程度上解决信息杂乱的现象,方便用户准确地定位所需的信息。其中,特征选择方法是目前网络信息过滤领域的研究热点之一,也是本文所研究的主要内容。本文主要针对信息过滤系统中特征选择算法的相关内容,对网络信息过滤系统的研究背景进行了分析。研究了网络信息过滤系统中的关键技术,提出了一种新的方法—神经网络模型来表示文本向量空间;然后对几种特征选择方法的优缺点进行了详细的研究和分析,并对互信息方法的不足进行了改进;将改进的互信息与传统的遗传算法相结合,提出了MI-GA方法,并进行了实验的验证;最后把改进的互信息与传统的遗传算法相结合策略在网络信息过滤平台上进行了网络信息过滤的实验测试。具体研究内容如下:1、提出了神经网络方法来表示文本向量空间,可以更好的达到文本降维目的。神经网络模型指把文本的向量空间表示转化为神经网络的表示形式。通过对文本进行切词后,每一个词认为是一个神经元,将众多神经元输入到神经网络中进行优化,经过网络中间层的处理以后,输出得到最优的特征子集,这样就达到了降维的目的。采用神经网络的表示法比较合适的领域大多数是根据非常复杂的文本分类进行推理以及需要表示事件状况、性质以及动作之间的关系的领域。把神经网络应用在信息科学领域等许多方面己显示出巨大潜力和广阔的应用前景。2、针对特征选择中的互信息方法的不足进行了改进。对互信息方法的优点和缺点进行了详细分析。互信息的缺点在于,没有考虑词出现的频率,受临界特征的概率影响较大从而造成了互信息评价函数常倾向于选择稀有单词。对其不足进行了改进,并比较了新旧两种互信息方法。3、将改进的互信息与传统的遗传算法相结合,提出了MI-GA方法。提出了把改进的互信息与传统的遗传算法相结合,即MI-GA方法。从文本分类的效果出发,把MI-GA方法进行了系统验证,实验结果达到了预期目标,在查全率、准确率和F1测度三个方面都有不同程度的提高,从而有效地保证了文本分类的约简率和准确率。4、将改进的互信息与传统的遗传算法相结合策略在网络信息过滤平台上进行了网络信息过滤的实验测试。实验表明,该方法在准确率和查全率上要好于其它方法,尤其在特征维数较高时取得了令人满意的测试效果。
其他文献
人脸识别技术最友好、自然、直接的生物特征识别手段,在社会公共安全、政府机关、视频监控、电子商务等领域都有着广泛的应用空间,人脸识别技术可分为人脸检测和识别两个基本
随着计算机技术的飞速发展,分布式异构系统逐渐成为解决复杂问题的有效工具。它的主要目标是通过网络互连实现全系统范围内的资源的共享,同时它还利用高效的资源管理和任务调
词汇语义相似度计算作为中文信息处理中的一个关键问题,国内外众多学者已对其开展了广泛而深入的研究,它是信息检索、信息抽取、文本分类、词义排歧和机器翻译等重点研究领域
下料问题存在于生产的各个领域,如剪切金属板材和带材、锯切木板、切割平板玻璃等。其中二维下料的应用较为广泛,而矩形下料是二维下料的基础。本文研究的是矩形二维板材下料
蛋白质磷酸化在细胞生长、分化、凋亡整个过程中扮演至关重要的角色。磷酸化蛋白质的特定位点能起到开关该蛋白质某种功能的目的,从而实现在不同生物过程中该蛋白发挥不同作
圆片二维下料问题广泛存在于电机、机械制造、航空航天等领域。如何提高下料过程中材料的利用率一直是排样专家研究的热点。根据现有的剪冲下料工艺,本文提出在固定大小板材
Ad Hoc网络是一种具有高度动态拓扑结构、节点任意移动的无线自组织网络。网络灵活机动、适应环境能力强,对终端性能要求不高,不需要固定基础设施的支持,具有较强的鲁棒性、抗毁
学位
最近几年来,用递归神经网络被越来越广泛的应用于推荐系统。其背后的原因是,用户的行为序列中存在一些固有的模式,而递归神经网络往往能很好的挖掘出这些模式。递归神经网络
业务流程是为特定的对象(客户)创造价值的过程,是达成特定目标的一系列相互关联、有组织的活动或任务。作为一种特殊的组合服务,业务流程可以被封装成可重用的组件形式并集成
自从二十世纪九十年代以来,核方法已经被广泛应用于模式识别与机器学习领域。作为一种基于非线性映射的非线性方法,核方法等价于先将原始数据通过非线性映射变换到一高维空间