面向高维标注受限数据的特征和样本选择方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:liutongyang123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学技术的发展和新兴商业模式的出现带来了多种类型数据的产生和积累,例如天文数据、社交数据、电商数据等。利用机器学习技术进行数据分析并挖掘数据中蕴含的知识和规律具有重要的科学意义和经济价值。实际数据特征维度高、大部分无标注,给数据分析任务带来了巨大挑战。本文从特征选择和样本选择(主动学习)两个方面深入系统研究高维标注受限数据的分析方法,主要成果总结如下:  针对数据特征维度高、带噪声等问题,本文提出一种新的鲁棒无监督特征选择方法。该方法同时将鲁棒图嵌入和鲁棒谱回归引入无监督特征选择,其中用鲁棒图嵌入处理原始数据的噪声同时估计数据的聚类结构,并用鲁棒谱回归进一步去除聚类结构上的稀疏噪声,从而提高特征选择的鲁棒性。实验结果表明,本文提出的鲁棒无监督特征选择方法的性能优于现有方法。  针对标注数据受限问题,本文提出一种基于多样性数据重构的样本选择方法,该方法将多样性机制无缝地融合到数据重构过程中,从而减少了被选样本间的信息重合度,有效缓解了现有数据重构方法存在的冗余问题。实验结果表明,本文提出的方法在性能上明显优于主流对比方法。  提出特征和样本联合学习框架,该框架在联合优化的特征空间中选择样本,并利用样本间重构关系更新特征表示。基于此框架,首先提出特征和样本联合选择方法,并利用局部学习对数据局部信息进行刻画,进一步提升联合选择的效果。然后,提出基于深度数据重构的主动学习方法,该方法将深度特征学习和样本选择进行联合优化,同时引入虚拟样本处理大规模数据。实验结果验证了提出的特征和样本联合学习框架的有效性。  针对冷启动推荐这一典型标注数据受限的实际应用,本文提出了一个新的冷启动推荐方法,该方法采用局部数据重构策略选择样本,并利用两轮问询机制获取用户对这些样本的偏好标注,其中第一轮问询根据用户对全局样本的反馈进行用户分组,而第二轮问询采用局部代表性样本刻画用户偏好。实验结果表明,本文提出的冷启动推荐方法的表现优于对比方法。
其他文献
强化学习在实际应用中通常会遇到一些问题,这些问题主要体现在泛化能力,学习速率以及学习的复用等方面。目前在强化学习中常采用函数估计和迁移方法来解决这些问题。而在函数估
在计算机网络技术和无线通信技术的大力推动下,互联网正在朝数据通信网络、蜂窝无线网络和广播电视网络三网融合的方向演进,伴随出现了异构网络环境、多模通信终端和多样性的应
局部特征在计算机视觉领域有着广泛的应用,相对于整体特征,局部特征标记出了图像中的重要区域,将图像信息用这些区域来表示,能够在表示图像局部重要信息的同时,节约了应用时的计算
随着互联网技术的蓬勃发展、网络互动社区等新兴应用的日益丰富以及企业信息化建设的高速发展,互联网社区用户数量急剧膨胀,各种新的需求和应用形式不断涌现,企业每天产生的各种
互联网的飞速发展使得其中的信息呈爆炸性增长,但互联网中的信息由于其本身的无结构性使人们很难找到自己有用的资源。如谷歌、百度等通用搜索引擎为我们提供大量的信息,但其中
统计机器翻译的首要工作是获取双语词对齐信息,而词对齐需要从词边界清晰的双语语料中训练才能得到。因此,在涉及中文的统计机器翻译系统中,首先需要对中文语料进行分词处理。可
一致化理论在自动推理、自然语言理解、逻辑证明、重写理论等研究领域中有着广泛的应用。目前语法一致化因子的产生算法和工具已经相对成熟,但还没有产生等价一致化因子的实
当今时代,嵌入式系统已经无处不在。从早期的通信设备、工业控制等领域已经很快的发展到与人们日常生活密切相关的电子产品领域中。同时,嵌入式系统也变的日益复杂,嵌入式操
在单元测试领域,测试充分度准则一直是研究的热点。到目前为止,学术界提出了各种不同的测试充分度准则。Richardson和Thompson在他们的研究成果即RELAY模型中提出了一种错误传