无监督符号数据的原型和属性协同约简研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:wdbbzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习中,原型选择(即实例选择、样本选择)和属性约简(即特征选择、属性选择)成了数据挖掘中必不可少的步骤,在机器学习中变得越来越重要。属性选择以及样本选择在机器学习中,是两个重要的数据预处理步骤,其中前者旨在从给定的数据集中去除一些不相关或者冗余的特征,而后者则是通过一定的指标去除有缺陷或者重复的记录。本文围绕无监督环境下样本和特征的协同选择展开了研究,其主要工作和创新点如下:(1)提出了一种基于数据集中属性或实例所携带信息量的衡量的重要度指标。针对无监督学习任务,可以通过聚类生成伪标签,将其转换为监督学习任务。利用模糊粗糙集的相关知识,以距离的方式度量特征之间的相似性,将属性之间的相关性衡量以及样本之间的关联性量化相结合,同时,与已有的基于信息熵的方法不同,该指标通过考虑关系的势而不是相似类来达到减低计算复杂度的目的。同时就所提出的指标的相关性质进行了讨论和验证,指标的单调性也保证了进行选择学习任务结果的有效性。基于提出的指标,给出了一种用于特征选择的贪心前向选择算法,并利用实验验证了所提出指标的有效性和实用性。(2)提出了一种新的算法,将谱聚类与字典学习相结合,能够实现无监督特征选择。在字典学习中,通过共享特征和伪标签的内在特征空间,以确保数据分布的一致性。聚类结构被编码进字典学习,以保证遵从数据分布的先验。然后通过计算从数据矩阵到内在特征空间的投影矩阵,获取原始特征空间的特征排序。将2范数用于投影矩阵以获得特征的重要度排序,利用交替最小化算法优化所提出的模型,达到特征选择的目的。针对在本文中所提出的学习模型,设计了一定的基准实验,以验证其可行性和有效性。(3)基于前文所提出的方法,进行了模型上的推广,使其能够解决样本和特征的协同选择。特征和样本是同一数据的不同角度的描述,通过将样本的信息添加到所提出的特征选择框架中,使其能够完成对特征和样本的协同选择。同时,通过不同的数值转换方法,利用推广的模型验证了在一定学习任务的前提下,不同转换方法将符号型数据转换为数值型数据的性能表现。
其他文献
本文以磁浮列车悬浮斩波器为研究对象,针对基于SiC MOSFET的悬浮斩波器进行了设计和分析,对斩波器中功率器件开关特性和母线电容进行了状态监测。主要研究内容如下:(1)在对Si
铁硅硼软磁合金以其优秀的综合软磁性能、简单的制造工艺、良好的非晶形成能力,在非晶合金产业中占据了主流地位。非晶合金内部的无序结构,使其具有较高的电阻率,还表现出各
大力发展新能源发电在推动我国能源生产及消费革命中占有重要地位,无论是从经济社会走可持续发展之路还是改善我国能源结构加固能源安全稳定都具有重大意义。本文以高比例新
普通水泥混凝土路面具有高刚度和高脆性,并且在车辆荷载交替循环的作用下容易产生疲劳裂纹,从而导致其使用寿命的缩短。一旦发生局部损坏,修复的难度将会很大。科研表明,在水
基于广大市民日益增长的健身需求,体育场馆、全民健身中心、体育公园、健身步道等各类公共体育设施正在全国范围内快速建设并发展着。然而,对众多脱胎于竞技体育设施的公益性
随着中国的经济增长和城市化进程的不断发展,如何发展公共交通成为了一个重中之重的问题,而在“可持续交通”的口号号召下,城市公共自行车的发展也扮演着越来越重要的角色。
细胞周期(cell cycle)是指细胞从一次分裂完成开始到下一次分裂结束所经历的全过程,分为间期与分裂期两个阶段。其中,间期分为三期、即DNA合成前期(G1期)、DNA合成期(S期)与D
社会媒体平台的繁荣发展导致大规模嘈杂的短文本产生。短文本主题挖掘旨在从海量的社会媒体短文本中挖掘潜在的主题信息,可用于文本摘要、话题推荐和回复生成等应用。目前,面
室内湿度影响着日常生活、生产的各个方面,如博物馆、画廊等场所以及纺织、造纸等生产工艺都对空气的湿度有着很高的要求。在建筑围护结构内表面应用调湿材料是一种调控室内
移动互联网的迅速发展,使得运行于智能终端上的APP成为人们生活中不可或缺的一部分。然而各APP彼此孤立、异构、相互间缺乏数据共享与连锁响应的状况,导致用户在解决复杂任务