基于非负矩阵分解的信息获取方法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:w232010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非负矩阵分解为特征抽取提供了一种崭新的方法。由于对分解结果加入非负限制,基于非负矩阵分解抽取的特征向量更能反映样本的局部特征,因而更接近人们的认知习惯,并具有很高的的可解释性和预测性。本文将非负矩阵分解运用于样本的特征抽取,研究其在信息获取领域中的应用,设计相应的处理算法,提高处理效果。本文首先全面介绍现有的非负矩阵分解基本思想、基本算法及其各种变体的原理及相互关系。然后从理论上将非负矩阵分解算法与包括聚类、奇异值分解以及概率算法在内的常用特征抽取方法进行比较,通过比较总结出基于非负矩阵分解所抽取的特征向量具有局部性和可解释性等特点。在理论分析基础上,再将非负矩阵分解应用于信息获取领域,研究基于非负矩阵分解的特征抽取方法在文本分类和日志挖掘中的应用。在文本分类领域,本文提出了基于非负矩阵分解分别抽取各类样本文档的语义,进而合成局部语义空间的方法。由于局部语义空间中的语义向量有很强的可区分度,将文档向量投影到局部语义空间后进行分类,可以有效的提高文本分类精度。在日志挖掘领域,本文设计了基于局部非负矩阵分解进行日志聚类,提取典型用户会话模板的算法。局部非负矩阵分解作为降维方式很好地解决了聚类算法中遇到的高维稀疏问题。同时由于局部非负矩阵分解具有基向量正交的特点,减少了冗余,从而进一步提高了日志聚类结果的质量。
其他文献
随着网络及计算机在人们生活中的日益普及,图像、音频等多种形式的多媒体文件极大地丰富了人们的生活。同时人们对于图像的画质要求也在不断提高,于是图像处理就提到了研究的
随着互联网、物联网及云计算相关技术的迅速发展,相关科学领域的数据呈现快速增长的趋势,如何快速准确的分析日益增长的数据成为一大难题。当前许多领域的成熟软件仍然是单机
由于计算机应用的飞速发展,数据仓库技术成为IT业界的热门研究方向之一。随着市场不断提出新需求,数据仓库急需高性能的、可靠的数据追加方案,以对各数据库中数据进行有效的管理
复杂三维实体网格生成技术已取得许多重要进展,涌现出如AFT(Advancing Front Techniques)、DELAUNAY TETRAHEDRALIZATION和OCTREE等四面体网格全自动生成方法。美中不足的是,
数字水印技术是数字产品版权保护领域中的研究热点,是一种全新的保护多媒体信息安全的技术。许多专家对数字水印算法进行了深刻的广泛的研究,并取得了一定的成果。本文首先介绍
计算机从诞生起就开始改变人类的生活方式,改善人类的生存状态,推动人类文明进步。计算机技术朝着多元化方向发展,已然成为衡量综合国力的指标之一。科学计量学是一门使用不同定
目前,许多网络监控系统的音视频传输仍然采用模拟信号。采用模拟信号传输所带来的问题是系统的造价高、建设周期长、适应性不强。流媒体的出现,解决了人们所遇到的这些问题。
本文以合理用药监测系统(又称PASS)为对象,应用中间件技术、COM和DCOM及相关技术,对检测监测系统从体系结构、单元模型、系统运行机制以及监测功能的实现技术等方面进行研究
非线性科学是一门研究非线性现象共性的基础科学,其中混沌理论是非线性科学的一个重要分支。本文利用理论推导和数值模拟相结合的方法研究了混沌的控制、同步以及混沌在密码
履带式地面移动机器人,是一种能够在道路和野外连续地、实时地自主运动的小型智能移动系统。在移动机器人的相关技术研究中,导航技术是其核心技术之一,也是其实现真正的智能化和