动态知识维护与标记分布特征选择研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:visualstudio2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在经典机器学习问题中,多标记学习作为一个热门的研究内容对现实世界多义性对象的研究具有重要意义,然而在现有的多标记学习算法中都忽略了标签之间具有的不平衡性。很多时候,研究者们更关心实例对于不同标签的隶属度以及其分布情况,因此有研究将多标记数据中的逻辑标记替换成了概率分布的形式,这就得到了标记分布数据。不论是多标记数据还是标记分布数据,都面临着数据规模爆炸式增长的问题。时至今日,针对多标记数据的特征选择方法有很多种,而能够适用于标记分布数据的特征选择研究却并不多。实际上,特征选择能够帮助我们发现蕴含在标记分布数据中潜在的重要特征与关键信息,此外,它还能够减小标记分布学习的时间与复杂度。因此,一方面本文提出了两种适用于标记分布数据中条件概率形式标签值的特征选择算法,以简化复杂且冗余的标记分布数据,助力于标记分布学习。另一方面,本文针对系统决策属性值变化的复杂情况提出了相应的动态知识维护方法,以期望更好的维护数据中的关键信息与知识。本文紧密围绕动态知识维护以及标记分布数据的特征选择展开研究,主要研究工作与贡献如下:(1)本文提出了两种基于模糊粗糙集模型的标记分布特征选择算法。其中一个算法基于模糊互信息对特征与标记分布之间的相关性以及特征之间的冗余性进行了度量,最终采用启发式前向搜索策略来选择一定维度的特征子集。另一个算法则基于模糊截关系将标记分布数据的模糊相似关系转换成为经典等价关系,通过模糊广义决策生成赋值差异矩阵并计算最小差异属性集合,在进行特征选择后输出得到的特征子集。最终,理论分析证明了算法的合理性,在真实数据集上的实验结果进一步验证了算法的有效性。(2)本文提出了针对决策属性值变化的动态维护决策规则的增量式算法。基于决策属性值粗化以及细化过程对原始数据广义决策的影响,本文总结了赋值差异矩阵在决策属性值变化的复杂情况下对应的更新规则。最终,理论分析算法的计算复杂度证明了算法的合理性,与经典规则归纳方法在真实数据集上的对比实验结果验证了所提出的增量式算法的有效性。
其他文献
语音交互是人类社会最直接、最自然的沟通交流方式,语音识别作为其中关键技术之一,能够通过识别语音信号,将语音信号转化为对应的文本文字。经过多年的深入研究,自动语音识别技术(ASR)已经取得了重大突破,并且投入到实际应用中,但是目前仍有一些技术难题需要攻克,其中最核心的问题就是降噪的处理。在实际应用中,由于周围环境的不确定性,语音常常会受到环境噪音的影响,进而影响语音的质量,最终使得语音识别率显著下降
利用网络表示学习方法高效的分析和挖掘大规模异质信息网络已经引起了广泛关注。由于考虑了节点与边的类型信息,异质信息网络携带的丰富的语义和结构信息,可以很大程度的优化网络分析和下游任务,但是如何充分利用这些信息则成为一个特殊挑战。传统的异质信息网络表示学习通过元路径引导的随机游走产生节点序列,并利用神经语言模型进行表示学习。虽然上述方法可以取得很好的效果,但仍旧是采用非常传统的Skip-Gram神经语
核矩阵近似是提高核方法计算效率的基本方法。已有的核矩阵近似方法独立于学习问题,且用于在线核方法时每回合重新求解近似核矩阵导致较高的计算复杂度。本文首先提出面向泛化误差的矩阵近似方法,然后通过增量奇异值分解给出高效的增量矩阵近似方法。整合泛化误差近似与增量矩阵近似给出在线核方法泛化误差的增量近似方法。主要内容如下:1.提出面向泛化误差的矩阵近似方法。用泛化误差构造采样分布,将该分布作用于核矩阵的近似
水下无线传感器网络在水环境信息采集、海底资源探测、海洋军事监控、水下灾害预警等方面具有广阔的应用前景,其中水下传感器网络节点部署不仅直接影响网络监测质量,而且关系到网络后续的各种算法和协议设计。然而,由于水下环境的特殊性,部署节点的成本高昂,采用何种方法在满足应用环境覆盖要求的前提下有效降低节点的部署成本是需要研究的关键问题。本文首先就现有的部署算法、覆盖指标、感知模型、通信方式等对水下传感器网络
随着人工智能技术的快速发展和迅速普及,神经网络应用在诸多领域上,比如图像分类、图像语义分割、图像检索、物体检测等计算机视觉问题上,并且开始替代大部分传统算法,逐步被部署到终端设备上。但是神经网络计算量非常巨大,从而存在神经网络在硬件上处理速度慢、运行功耗大等问题。其中,CNN(卷积神经网络)庞大的数据移动和计算复杂度给硬件带来了巨大的功耗和性能挑战,这阻碍了CNN在智能手机和智能汽车等嵌入式设备上
标记分布学习是一种新型的解决标记多义性问题的机器学习范式,其在处理标记模糊性问题方面有着十分重要的应用。不同于多标记学习,标记分布学习的标记空间不再是离散的标记向量而是各个标记对于样本的描述程度,它是一种更加泛化的表示形式。近些年来,标记分布学习以其十分广泛的应用背景,得到了越来越多的研究者的重视。在目前的标记分布学习模型中,大部分采用最大熵模型对标记分布学习数据进行预测并没有对标记空间中存在的信
异构迁移聚类可以在无监督的情况下将知识从相关的异构源域迁移到目标域。现有的工作通常需要使用大量的完整共现数据,这种数据通常是异构的,使用转换函数是实现将异构数据映射到公共潜在特征子空间的方法。然而,在许多实际应用中,收集大量的共现数据是不现实的,而现有的共现数据往往是不完整的。另一个常见的问题是,实际中异构数据的复杂结构可能导致聚类性能的大幅度下降。为了解决这些问题,本文从两个方面提出了无监督异构
水下传感器网络如今已经被广泛地应用于海洋监测、开发和探索。水下传感器网络采用声波进行数据传输,水声信道的误码率较高、传播速度低、时延大、衰减严重,且网络拓扑时刻在动态变化。由于传感器节点被部署在广泛的水体中,所以很难对容量有限的电池进行补充和更换。在数据包的路由过程中,对网络空洞问题的处理方式,直接影响到水下网络的吞吐量、及时性和健壮性。目前,已经有很多的水下传感器网络路由协议被提出,但是它们要么
在嵌入式设备上,如何在保证运行结果准确率的情况下,提高卷积神经网络的运行速度并尽可能降低运行能量消耗,是卷积神经网络加速器设计面临的关键问题之一。同时,由于缺少统一的加速器架构和相应的软件开发环境,将卷积神经网络移植到加速器上,需要复杂的开发过程,增加了加速器使用复杂度。因此,如何将加速器性能、功耗与加速器对网络模型的通用性、适用性结合起来,是对加速器整体设计的一个考验。本文提出了一种面向卷积神经
知识图谱是由实体和关系组成的有向图,图中的节点表示现实世界中的各种事物实体,图中的边表示这些事物实体之间的相互关系。但是知识图谱通常都是不完全的,会有大量的关系缺失,通过人工的方式补全这些缺失的关系,需要消耗大量的人力和时间。因此,知识表示学习被提出来,通过将实体嵌入到连续的低维向量空间中,进而实现知识图谱的自动补全。Trans E模型是谷歌提出来的第一个基于翻译的知识表示模型,它是后续所有基于翻