结合先验知识的分类器设计研究

被引量 : 9次 | 上传用户:LFBLLFBL
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类器设计是模式识别系统的关键环节,其目的在于根据给定的观测或训练数据学习分类规则,实现对未见样本的预测,并达到尽可能好的泛化或推广性能。然而实际应用中可资利用的训练数据数量有限,且往往含有噪声,导致能够正确分类训练数据的分类器未必能在未见或测试数据上获得好的分类推广性能,此时,为提高推广性能,必须在分类器设计中尽可能多地利用与当前分类任务相关的先验知识(或信息)。同时,由著名的“没有免费午餐定理(No FreeLunch Theorem, NFL)”可知,不存在任何一种分类算法具有“与生俱来”的优越性,想要获得“最佳”分类性能,必须结合与特定分类任务相关的先验知识。因此,分类器推广性能=数据+先验知识!本文通过分析发现最常用和有效的基于判别函数的支持向量机(Support VectorMachine, SVM)及其改进算法在一些分类学习任务中并没有充分利用先验知识,性能仍有进一步提升的空间。因此我们尝试在其学习过程中嵌入先验知识以进一步提升其推广性能。本文所结合的先验信息类型包括特征判别能力信息和样本聚类结构信息,所采用的结合方式包括正则化方式和改变模型刻画的方式。本文主要贡献在于:1)首次尝试在分类器设计中考虑反映特征判别能力的先验信息,并通过在SVM中结合该信息提出了结合特征判别性的SVM算法FDSVM (Feature Discrimination incorporated SVM)。SVM同等程度地惩罚各特征权值,而FDSVM约束各特征权值的惩罚程度反比于对应的判别能力值,使具有强判别能力的特征在学习过程中被赋予更高的重要性。实验表明,FDSVM能达到优于SVM的推广性能,同时保持相当的计算效率。2)通过在AUC-SVM (AUC-maximized SVM)中嵌入样本对的整体聚类结构信息提出了结构嵌入的AUC-SVM算法SAUC-SVM(Structure-embeddedAUC-SVM)。一方面,AUC-SVM仅关注与支持向量对相关的数据局部判别信息,忽略了数据分布的全局结构信息。另一方面,通过样本采样技术降低AUC-SVM训练复杂度的策略会进一步导致数据整体分布信息的丢失。而SAUC-SVM通过将数据局部判别信息和全局聚类结构信息相融合弥补了上述不足,进而提升了推广性能。实验表明,SAUC-SVM能达到比AUC-SVM更优的性能,并能保持相当的计算效率。3)指出在基于ECOC (Error Correcting Output Codes)的多类分类器设计中,利用多个原有类组成各二类子问题中的“超类”,并将各“超类”视为单个类掩盖了由各原有类所构成的内在结构信息。为此,我们将其嵌入基于ECOC的多类分类器设计中提出改进的多类分类方法。实验表明,改进方法确实能够获得性能提升,从而验证了在基于ECOC的多类分类器设计中利用各原有类结构信息的有效性。4)提出修正的聚类假设,并据此提出新的半监督分类算法SSCCM (Semi-SupervisedClassification based on Class Membership)。通过将“相似样本共享相近类标号”的聚类假设修正为“相似样本共享相近类标号隶属度”,SSCCM允许各样本同时属于多个类,对应不同的类标号隶属度。SSCCM返回决策函数和类标号隶属度函数,两者预测结果通常一致,可以相互印证,而不一致结果则可被利用以增强半监督分类学习的可靠性。实验表明,相比于基于聚类假设的半监督分类方法,SSCCM的分类性能具有相当的竞争力,从而验证了修正聚类假设的合理性。5)进一步将修正聚类假设应用于大间隔聚类中,发展出了软大间隔聚类算法SLMC(SoftLarge Margin Clustering)。SLMC最大化聚类间间隔,并允许各样本以相应的软聚类隶属度同时属于多个聚类,因此结合了大间隔原理和软聚类思想的优点。实验表明,SLMC的性能优于大间隔聚类方法MMC(maximum margin clustering)和典型的模糊聚类方法FCM(Fuzzy c-means)。
其他文献
早期视觉认知过程存在两大认知理论:即“初期整体知觉”理论和“初期特征分析”理论。其中“初期整体知觉”理论把视觉认知看作是一个“从大范围性质到局部性质”的认知过程,
目前气候变化影响着全球各国的生存和发展,减少和控制碳排放量成为国际社会关注的焦点问题之一。在低碳经济背景下,美国拟对中国高碳产品的进口征收碳关税,这势必对中美贸易产生
随着社会的进步和人类物质生活水平的提高,人们对生活的质量和居住空间的内在品质提出了新的要求。文化作为住宅的灵魂,已经成为现代住宅环境设计领域的一个关键性研究课题。本
本论文内容主要是碳酸二乙酯(DEC)生产过程和应用过程中相关物系的物性测定及二元体系液体粘度的关联和三元体系液体粘度的估算。在常压下利用日本产DA-505U型振动管密度仪、
现阶段国家对废旧家电回收的刺激政策主要以经济激励为主,然而活动结束后,其回收渠道并没有显著的改善,甚至又回到原来的状况,可见单纯的以经济性激励为主的激励机制是存在一
公开市场业务是货币政策最常用的调控工具,但是由于我国存在利率市场化进程缓慢,国债市场基础薄弱等问题,使得我们对公开市场业务的有效性提出质疑。我国公开市场业务发挥效用是
本文考察了基础设施的城乡收入分配效应,探讨了基础设施缩小城乡收入差距的原因和机制。基准分析发现,交通和通讯基础设施均可以带来显著的收入分配改善效果,即具有缩小城乡
本文以广州市S大学为研究案例,以市场转型理论和生命历程理论为研究框架,通过实地田野对教职工进行深入的调查访谈并结合相关的住房政策文献等材料,通过剖析S大学教职工住房资源
投资基金的业绩评价不仅是评价投资管理价值的一种方法,也能改进投资管理过程的反馈机制,可以说,它为基金业规范和健康发展提供一个关键性环节。目前,我国证券投资基金业处于初步
<正>付卫东博士撰写的《经济转型期我国职业教育改革研究》(中国社会科学出版社2017年出版)一书顺利出版,我感到十分欣慰,并表示由衷地祝贺!职业教育改革是一个恒古犹新的话