反转类指定距离度量的改进及应用研究

来源 :中国地质大学 | 被引量 : 0次 | 上传用户:beiwei72
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分类作为数据挖掘中的重要任务之一,被广泛应用于医疗诊断、文本分类、模式识别以及位置推荐等领域。许多机器学习算法都可以实现分类,例如基于实例的学习、决策树、贝叶斯网络、人工神经网络、支持向量机以及自组织映射等等。其中,基于实例的学习作为众多机器学习中最受研究者欢迎的分类算法之一,它获得好的分类结果的关键在于距离度量的选择。距离度量是通过测量两个实例在不同属性上的距离来估计两个实例之间的差异或相似性的方法。属性可以分为数值性属性和名词性属性。名词性属性的不连续性使得它们的距离不能通过直接计算属性值的差值来获得。因此,相比于数值性属性,名词性属性的距离度量问题要更加复杂和具有挑战性。研究学者们将不连续的名词性属性的相似度计算问题转换成根据先验知识统计、后验知识估计的概率之间的距离度量问题,相继提出了重叠度量、值差度量、Short-Fukunaga度量、最小风险度量、反转类指定距离度量等名词性属性距离度量范式。其中,反转类指定距离度量通过叠加每一维属性的反转类指定条件概率来获取两个实例之间的相似度,它对数据集中的缺失值和非类属性噪声具有良好的鲁棒性,因此,它被评为最佳名词性属性距离度量之一。然而,与大多数名词性属性距离度量一样,它存在属性独立性假设问题,即,属性与属性之间相互独立,不存在任何相互依赖关系。这种对属性独立性的强约束在许多现实世界的数据集中几乎不可能实现。本文以反转类指定距离度量为研究对象,以属性独立性假设为前提,从以下两个方面对其进行了改进:1)结构扩展,通过在相互独立的属性之间添加有向边来表示属性之间的相互依赖关系;2)属性加权,给不同的属性分配不同的权值,以区分它们对分类器分类结果的不同影响和贡献。在此基础上,本文提出了平均一依赖的反转类指定距离度量、信息增益率加权的反转类指定距离度量、基于差分演化属性加权的反转类指定距离度量、细粒度属性加权的反转类指定距离度量四种新的度量。本文还调查了现有的个性化位置推荐系统中的用户轨迹语义增强方法,同时,验证了新度量在用户轨迹语义增强中的实际应用价值。本文的主要研究工作和取得的成果可以概括如下:(1)通过对朴素贝叶斯分类器中的属性独立性假设以及结构扩展的贝叶斯分类器的研究,提出把属性依赖关系引入反转类指定距离度量,以放宽方法中的属性独立性假设约束。在此基础上,根据结构扩展的朴素贝叶斯分类器学到的属性依赖关系建立相应的距离度量,提出了一种平均一依赖的反转类指定距离度量。实验证明,在具有强依赖关系的数据集上,平均一依赖的反转类指定距离度量的性能要远远优于反转类指定距离度量。(2)讨论了维度灾难给距离度量带来的性能影响,通过对现有的属性加权方法的研究,提出把属性加权方法引入反转类指定距离度量,以加强与类变量相关的属性和抑制冗余属性对距离度量的影响。在此基础上,计算属性与类变量的信息增益率并把它们作为权值分配给相应的属性,提出了一种信息增益率加权的反转类指定距离度量。实验证明,信息增益率加权的反转类指定距离度量极大的改进了反转类指定距离度量的性能,同时,保持了原度量的简洁性。(3)对比了过滤式属性加权方法与包裹式属性加权方法的优缺点,通过对现有的包裹式属性加权方法的研究,提出把启发式搜索应用于属性加权的反转类指定距离度量,以找到使得属性加权的反转类指定距离度量性能更优的属性权值。在此基础上,结合差分演化算法不需要预先假设初始值以及总能够跳出局部最优而获得全局最优的特性,提出了一种基于差分演化属性加权的反转类指定距离度量。实验证明,通过全局最优的属性权值加权方法可以极大地提升反转类指定距离度量的性能。同时,在性能是第一考虑要素时,基于差分演化属性加权的反转类指定距离度量是一个可取的距离度量范式。(4)从属性加权的反转类指定距离度量改进方法的成功经验中,产生了对属性权值粒度的思考,通过对现有的细粒度属性加权方法的研究,提出把细粒度属性加权方法引入反转类指定距离度量,以加强与类变量相关的属性值和抑制冗余属性值对距离度量的影响。在此基础上,利用随机重启游走算法来优化细分后的属性权值,提出了一种细粒度属性加权的反转指定距离度量。实验证明,细粒度属性加权的反转类指定距离度量的性能要远远优于反转类指定距离度量。同时,保持了原度量的时间效率。(5)分析和调查了个性化位置推荐系统中的用户轨迹语义增强方法,探讨了平均一依赖的反转类指定距离度量、信息增益率加权的反转类指定距离度量、基于差分演化属性加权的反转类指定距离度量以及细粒度属性加权的反转类指定距离度量在用户轨迹语义增强中的应用价值。
其他文献
近年来,学术界从畜牧经济、产业经济、市政管理以及广告营销等诸多学科分别论述牛奶业在近代中国的发展历程以及其中所蕴含的“现代性”因子。事实上,牛奶在近代中国百年间的剧烈变化不仅颠覆了国人源远流长的饮食习惯,其中更隐含着近代中西文明交流中的隐含的“文明等级论”的叙事,以及国人追寻现代转型的重要文化意义。鉴于此,本文尝试以物质文化史的方法揭示牛奶这一处于中国传统饮食体系边缘的食物如何在全球化和中国近代化
影像三维重建是摄影测量与计算机视觉领域长期研究的一个基本问题。影像作为探知物体表面三维形状信息的重要数据源,在经济性、便捷性、灵活性等方面具有其他技术手段(如激光测量、微波干涉测量)无可比拟的优势。摄影分辨率的提高,以及倾斜摄影测量的大范围应用,使得对城市场景进行精细的空间感知成为可能。而高质量的三维重建是全方位城市空间信息感知的重要前提。面向城市场景,实现能够自动、精确、有效、完整反应地物结构信
第一部分:过敏原数据库ALLERGENIA 2.0目的:构建的以机器学习方法为基础的过敏原分类判别机器,准确的训练数据集是算法精确性和泛化性能的基础和前提。针对过敏原来说,但现存常用过敏原数据库皆存在数据库基本质量缺陷,对数据库准确性和用户使用产生负向影响。整合一个最为准确、零冗余信息、数据最完整的过敏原数据库,显得势在必行。方法:(1).分析三个过敏原数据库(ALLERGENIA、COMPARE
随着城市化进程的加快,城市绿地供给服务已经越来越不能满足不断向中心城市集聚和增加的城市人口,人均绿地面积不断减少,城市生态环境和居民生活质量不断下降。城市公园作为城市公共服务设施的重要组成部分,其布局的合理和公平与否直接影响城市居民生活的健康与幸福。然而城市公园绿地服务供给和居民需求的不匹配情况制约着城市公园绿地服务的有效性,城市公园绿地供给的不公平现象日趋严重。因此,加快对城市公园布局的研究方法
自改革开放以来,中国的快速城市化进程极大地改变了土地覆盖与空间结构分布,进而影响陆地生态系统结构,产生与加剧系列环境问题,对社会的可持续发展带来挑战,因此提升及时可靠的城市土地覆盖与结构类型分类能力具有重要研究价值。Landsat遥感影像因全球覆盖、免费获取、空间分辨率良好、重访周期短以及数据支持成熟的优势而成为最广泛应用的对地观测数据源之一。城市土地覆盖包括建成区和自然地表两大类,土地覆盖类型可
城市化是21世纪全球范围内最重要的社会变革。持续增长的城市人口促使城市用地不断向外扩张,城市人口和土地是复杂城市系统中最重要的两个要素。本文以城市土地和人口的关系为切入点,围绕城市土地与人口关联关系的定量化、模型化并指导城市发展的研究目标,研究城市土地扩张与人口增长的定量关系、影响机制和演化规律,并回应中国城市发展中土地管理面临的现实问题。时序上,已有研究普遍发现城市土地扩张快于人口增长,也即土地
我国是法律限制地方政府举债的少数国家(2014年前),同时也是为数不多的地方政府债务超过中央政府债务的国家。近年来我国地方政府债务迅速膨胀,成为境外机构唱空我国的主要借口之一。地方政府债务已成为我国经济中的“灰犀牛”,控住地方政府债务,已成为中央政府与学界、业界的共识。在经济进入中高速增长的新常态下,如何增进地方政府债务可持续性,是理论与实践热点。现有理论肯定地方政府债务合理性,地方政府债务在符合
大学生思想政治教育获得感是彰显高校思想政治教育“立德树人”理念的重要体现,是衡量大学生思想政治教育质量的重要指标,是凸显大学生思想政治教育坚持求真务实精神的鲜明印记。对于新时代大学生思想政治教育的创新发展而言,研究大学生思想政治教育获得感有着非常重要的理论和实践意义。本文按照“是什么→为什么→怎么办”的基本思路延绵展开,依次回答“大学生思想政治教育获得感是什么”、“大学生思想政治教育获得感有哪些借
增值税不仅被世界上超过160个国家所采用,还因其强大的税收筹集功能成为许多国家的主体税种。在经济一体化、贸易全球化的背景下,因缺乏协调而产生的增值税管辖权冲突将成为国际贸易发展受阻、纳税人权利和国家利益受损的诱因。跨境服务的增值税管辖权冲突,因服务的无体性和线上交易的“跨边境”性质,很难在现行制度下协调。鉴于我国2016年才实现全面“营改增”,全面覆盖商品和服务的增值税制度建立不久,在应对跨境交易
近年来高分辨率遥感影像快速获取和处理能力的不断进步以及人工智能的崛起兴盛,极大的推动了违章建筑快速自动化检测识别,为城市规划建设和监测管理提供了一种系统高效的新技术手段。然而由于复杂场景中空间上下文的复杂性、建筑物的差异性和多样性以及投影差导致的影像上几何偏移和影像间位置差异,实际应用中主要还是依靠人工判读解译,导致工作效率低下,人力财力浪费严重,并且在海量遥感数据面前显得捉襟见肘。基于以上考虑,