带标签和/或无标签数据综合利用的模式分类新方法研究

来源 :江南大学 | 被引量 : 0次 | 上传用户：jk0803liuyan

【摘要】

：

模式分类是机器学习的一个重要研究分支。传统模式分类包括监督分类和无监督分类两种方法,其训练数据集要么是带标签数据,要么是无标签数据。随着新应用的不断出现,训练数据

【作者】

：

董爱美

【出处】

：

江南大学

【发表日期】

：

2016年01期

【关键词】

：

推荐系统最小包含球模式分类半监督学习迁移学习共享隐空间支持向量机

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

模式分类是机器学习的一个重要研究分支。传统模式分类包括监督分类和无监督分类两种方法,其训练数据集要么是带标签数据,要么是无标签数据。随着新应用的不断出现,训练数据集中同时包含带标签数据和无标签数据,无标签数据数量非常多且获得新的无标签数据非常容易代价低廉,而带标签数据数量非常少且获得新的带标签数据非常困难代价昂贵;并且还出现了一种新现象,无标签数据和带标签数据来自不同但相关的领域。针对该现象,本文以最小包含球、核向量机、特征扩维和共享隐空间等理论为指导思想,结合支持向量机,针对监督分类、半监督分类和迁移分类三种不同研究场景,提出了几种带标签和/或无标签数据综合利用的模式分类新方法,主要研究成果如下:1)针对监督分类场景,将以稀有带标签数据为训练数据的分类问题应用到推荐系统中,提出了针对异质空间大数据相似性问题的推荐算法及其快速算法,算法本质上是基于监督分类模型的个性化推荐算法。具体来说,该算法将传统推荐方法和最小包含球、核向量机等理论相结合,以支持向量机理论为基础,将传统推荐方法转化为中心约束的最小包含球问题,从而使其具备大样本快速处理能力。实验中将所提方法应用到电影推荐系统中,验证了所提方法的有效性。2)针对半监督分类场景,从传统半监督分类自标记过程中由于带标签数据标签受到攻击产生误标而扩大类标签错误着手,以支持向量机为分类模型,从数据特征角度提出了一种基于特征扩展的半监督支持向量机分类算法。该方法首先以带标签数据和无标签数据间概率分布积分均方误差最小为原则,通过一个行正交变换将数据原始特征进行扩展;然后以分类器最大间隔原理为指导,在扩展的特征空间中对带标签数据进行训练得到最终模式分类器。相关实验结果验证了所提半监督模式分类器的有效性。3)针对半监督分类场景,以基于特征扩展的半监督支持向量机分类算法为基础,在运行时间和安全使用无标签数据方面对其进行改进,提出了一种基于过取样技术和共享隐空间理论的半监督分类方法。该方法首先使用过取样技术以带标签数据和无标签数据为基础生成新的带标签的合成数据;然后以原始带标签数据和合成数据间概率分布积分均方误差最小为原则,寻找原始带标签数据和合成数据间的共享隐空间;最后在原始特征空间和共享隐空间组成的扩展空间中对原始带标签数据进行训练得到最终模式分类器。相关实验结果验证了所提半监督模式分类器的有效性。4)针对迁移分类场景,为充分挖掘不同但相关领域间的共性“知识”,从特征变换角度出发提出了一种新的基于特征的迁移分类方法。该方法充分考虑领域原始特征空间和领域间共享低维隐空间的约束,具体来说:首先引入一个特征变换参数矩阵作为领域间的共享隐变量,通过该共享隐变量将源域和目标域数据映射到一个公共的低维子特征空间上;进一步地,基于原始特征空间和公共低维子特征隐空间构造联合决策函数,把领域原始特征空间和领域间公共低维子特征隐空间同时嵌入到支持向量机的训练中,从而学习到一个在目标域中泛化性能更好的分类器。相关实验结果验证了所提迁移分类方法的有效性。5)针对迁移分类场景,为充分挖掘不同但相关领域间的共性“知识”,避免“负迁移”现象发生,从训练数据属性角度出发假设不同领域间数据存在某些共享的隐特征,提出迁移共享特征支持向量机算法。该方法以分类器最大间隔原理为指导思想,通过最大化源域无标签数据和目标域带标签数据的联合概率分布,来构建源域和目标域间的共享隐特征;为充分考虑目标域带标签数据的分布情况及其类标可能受到攻击情况,在目标域原始特征和共享隐特征组成的扩展特征空间中对目标域中的带标签数据进行训练得到目标域的最终分类模型。相关实验结果验证了该迁移学习分类器的有效性。

其他文献

浅析企业如何构建财务风险控制的策略体系

本文从风险状态转移、风险机制改善和企业特性优化三个层次,分析企业财务风险控制策略形成的基本途径,实施的条件,在此基础上构建企业财务风险控制的策略体系。

期刊

企业财务风险策略体系

妇产科“过度医疗”之痛

"过度医疗"历来是医师执业中的大忌,虽然此问题早为大家所关注,但过度医疗的成因十分复杂,涉及医疗技术水平、职业道德、各种利益驱动以及管理体制等问题,因此,"过度医疗"至

期刊

妇产科过度医疗

论近代农产品收购商与农民生产及收益

收购是商品流通的一个重要环节,联系着商品的产销。近代以来,农产品收购随着农产品贸易的发展而兴起,农产品收购商与农民的关系变得更为紧密。在近代骤变的复杂历史环境中,农

学位

近代农产品收购商农民生产农民收益

492例瘢痕子宫妊娠分娩结局临床分析

目的探讨瘢痕子宫孕妇妊娠分娩结局,了解瘢痕子宫再次妊娠分娩的并发症及风险,降低社会因素所致剖宫产率的飙升。方法对492例瘢痕子宫妊娠分娩结局及其相关因素进行回顾性对

期刊

瘢痕子宫分娩结局剖宫产指征

夫妻共同财产分割的探讨——基于人力资本理论的视角

本文在投入产出理论的基础上,利用市场替代法和机会成本法对家务劳动进行定价,并提出在原有婚姻法的基础上补偿家务劳动的价值,分享人力资本收益的观点。

期刊

夫妻共同财产人力资本

淄博市社会中介组织调研报告

<正>一、存在的问题(一)行业构成不合理。从工商系统登记注册的中介组织情况看,数量超过100家的中介组织共有工程监理、房地产中介、运输代理、广告代理、咨询服务5类,数量在

期刊

中介组织职能转变公共服务

熔铸AZS砖溶蚀的显微结构

借助扫描电镜、能谱仪和X射线衍射研究了玻璃熔窑池壁用熔铸Al2O3-ZrO2-Sith（AZS）大砖蚀变后残砖的显微结构变化。在玻璃液-砖间界面后形成了-厚度〈1mm的蚀变层，而在25mm的厚度

期刊

显微结构演变熔铸氧化铝–氧化锆–氧化硅砖玻璃熔窑侵蚀

浅谈工会组织在提高职工队伍素质中如何发挥作用

随着现代化进程的加快和市场经济的快速发展,职工队伍的整体素质成为促进企业健康快速发展的重要条件,工会要在提高职工队伍素质方面肩负重要责任。工会发挥"大学校"作用,提

期刊

工会职工队伍素质发挥作用

用“最儿童”的方式来激活地域剪纸——谈“童彩剪纸”课程的开发与利用

剪纸是一门有着悠久历史的民阆传统装饰艺术.它体现了人类艺术最基本的审美观念和精神品质,具有鲜明的艺术特色和生活情趣.如何让剪纸这一传统的民间艺术得到儿童的喜爱,并让

期刊

教学中民间艺术开发与利用生活化审美表现传统剪纸艺术剪纸图案经典化民间剪纸艺术

论环保NGO的环境公益诉讼原告主体资格——以中华环保联合会的环境公益诉讼实践为背景

在我国现行法并未明确规定环保NGO的环境公益诉讼原告主体资格的背景下,中华环保联合会的环境公益诉讼原告主体资格是通过地方司法机关实践的方式确认的。环保NGO应成为环境

期刊

环保NGO环境公益诉讼原告主体资格中华环保联合会

带标签和/或无标签数据综合利用的模式分类新方法研究

与本文相关的学术论文