无监督符号数据的原型和属性协同约简研究

来源 :天津大学 | 被引量 : 0次 | 上传用户：wdbbzl

【摘要】

：

在机器学习中,原型选择(即实例选择、样本选择)和属性约简(即特征选择、属性选择)成了数据挖掘中必不可少的步骤,在机器学习中变得越来越重要。属性选择以及样本选择在机器学

【作者】

：

张其来

【出处】

：

天津大学

【发表日期】

：

2004年期

【关键词】

：

样本选择特征选择数据降维无监督学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在机器学习中,原型选择(即实例选择、样本选择)和属性约简(即特征选择、属性选择)成了数据挖掘中必不可少的步骤,在机器学习中变得越来越重要。属性选择以及样本选择在机器学习中,是两个重要的数据预处理步骤,其中前者旨在从给定的数据集中去除一些不相关或者冗余的特征,而后者则是通过一定的指标去除有缺陷或者重复的记录。本文围绕无监督环境下样本和特征的协同选择展开了研究,其主要工作和创新点如下:(1)提出了一种基于数据集中属性或实例所携带信息量的衡量的重要度指标。针对无监督学习任务,可以通过聚类生成伪标签,将其转换为监督学习任务。利用模糊粗糙集的相关知识,以距离的方式度量特征之间的相似性,将属性之间的相关性衡量以及样本之间的关联性量化相结合,同时,与已有的基于信息熵的方法不同,该指标通过考虑关系的势而不是相似类来达到减低计算复杂度的目的。同时就所提出的指标的相关性质进行了讨论和验证,指标的单调性也保证了进行选择学习任务结果的有效性。基于提出的指标,给出了一种用于特征选择的贪心前向选择算法,并利用实验验证了所提出指标的有效性和实用性。(2)提出了一种新的算法,将谱聚类与字典学习相结合,能够实现无监督特征选择。在字典学习中,通过共享特征和伪标签的内在特征空间,以确保数据分布的一致性。聚类结构被编码进字典学习,以保证遵从数据分布的先验。然后通过计算从数据矩阵到内在特征空间的投影矩阵,获取原始特征空间的特征排序。将2范数用于投影矩阵以获得特征的重要度排序,利用交替最小化算法优化所提出的模型,达到特征选择的目的。针对在本文中所提出的学习模型,设计了一定的基准实验,以验证其可行性和有效性。(3)基于前文所提出的方法,进行了模型上的推广,使其能够解决样本和特征的协同选择。特征和样本是同一数据的不同角度的描述,通过将样本的信息添加到所提出的特征选择框架中,使其能够完成对特征和样本的协同选择。同时,通过不同的数值转换方法,利用推广的模型验证了在一定学习任务的前提下,不同转换方法将符号型数据转换为数值型数据的性能表现。

其他文献

基于SiC MOSFET的磁浮列车悬浮斩波器设计及其状态监测研究

本文以磁浮列车悬浮斩波器为研究对象,针对基于SiC MOSFET的悬浮斩波器进行了设计和分析,对斩波器中功率器件开关特性和母线电容进行了状态监测。主要研究内容如下:(1)在对Si

学位

悬浮斩波器SiC功率器件电容状态监测神经网络

Fe80Si8B6Nb5Cu纳米晶磁粉芯制备与软磁性能研究

铁硅硼软磁合金以其优秀的综合软磁性能、简单的制造工艺、良好的非晶形成能力,在非晶合金产业中占据了主流地位。非晶合金内部的无序结构,使其具有较高的电阻率,还表现出各

学位

纳米晶磁粉芯成型压力退火温度渗氢P元素含量

微电网的大系统递阶控制研究

大力发展新能源发电在推动我国能源生产及消费革命中占有重要地位,无论是从经济社会走可持续发展之路还是改善我国能源结构加固能源安全稳定都具有重大意义。本文以高比例新

学位

微电网大系统理论递阶控制结构综合经济性

橡胶混凝土弯曲疲劳性能研究

普通水泥混凝土路面具有高刚度和高脆性,并且在车辆荷载交替循环的作用下容易产生疲劳裂纹,从而导致其使用寿命的缩短。一旦发生局部损坏,修复的难度将会很大。科研表明,在水

学位

橡胶混凝土ABAQUS模拟弯曲性能Fe-safe计算疲劳寿命

低能耗膜结构全民健身设施气候适应策略研究

基于广大市民日益增长的健身需求,体育场馆、全民健身中心、体育公园、健身步道等各类公共体育设施正在全国范围内快速建设并发展着。然而,对众多脱胎于竞技体育设施的公益性

学位

健身设施热舒适膜结构气候适应性

城市公共自行车的静态再分配问题研究

随着中国的经济增长和城市化进程的不断发展,如何发展公共交通成为了一个重中之重的问题,而在“可持续交通”的口号号召下,城市公共自行车的发展也扮演着越来越重要的角色。

学位

公共自行车静态再分配启发式算法最优解

RXRα调控有丝分裂的分子机制研究

细胞周期(cell cycle)是指细胞从一次分裂完成开始到下一次分裂结束所经历的全过程,分为间期与分裂期两个阶段。其中,间期分为三期、即DNA合成前期(G1期)、DNA合成期(S期)与D

学位

有丝分裂RXRα磷酸化

面向社会媒体的短文本主题挖掘技术研究

社会媒体平台的繁荣发展导致大规模嘈杂的短文本产生。短文本主题挖掘旨在从海量的社会媒体短文本中挖掘潜在的主题信息,可用于文本摘要、话题推荐和回复生成等应用。目前,面

学位

短文本主题挖掘社会媒体互增强知识动态用户行为词嵌入注意力机制

调湿材料湿缓存能力评价及其在辐射空调房间中的应用研究

室内湿度影响着日常生活、生产的各个方面,如博物馆、画廊等场所以及纺织、造纸等生产工艺都对空气的湿度有着很高的要求。在建筑围护结构内表面应用调湿材料是一种调控室内

学位

调湿材料湿缓冲值动态评价指标辐射换热节能

服务粒度定制化的Android应用自主协同框架

移动互联网的迅速发展,使得运行于智能终端上的APP成为人们生活中不可或缺的一部分。然而各APP彼此孤立、异构、相互间缺乏数据共享与连锁响应的状况,导致用户在解决复杂任务

学位

服务粒度定制化自主协同实时推荐连锁响应

无监督符号数据的原型和属性协同约简研究

其他学术论文