论文部分内容阅读
机器学习的概率表达方法是一个重要的研究方向。概率表达框架有许多优点,如清晰的概率语义和明白地描述不确定程度的能力等。概率图模型作为此框架的基本表示方式,直观描述随机变量之间的关系,借助于图理论和统计理论分析随机变量之间的内在联系,通过观测数据来发现隐含在观测数据后的规律。贝叶斯理论作为此框架的主要工具,随着可得到计算能力的快速发展,其笨重的表达方式和计算速度慢等缺点逐渐克服,正在机器学习界得到越来越多的应用。概率图模型的统计推断、参数学习和模型选择则是此框架的主要研究内容,相继涌现的逼近学习方法使得处理大规模概率推断问题成为现实。
本论文主要对机器学习中的几个概率模型的模型选择、参数学习和逼近推断等进行研究,特别是一些面向非监督学习和聚类任务的概率模型。在给出概率图模型的基础上,运用各种逼近方法学习模型参数,并提出新的算法,在仿真和真实数据上验证这些算法的有效性。论文的主要工作有:
在贝叶斯多维尺度分析框架下,给出了利用RJMCMC确定多维尺度分析本质低维维数的算法,此算法能同时进行模型选择和参数估计。
给出了一个基于Dirichlet过程的贝叶斯多维尺度聚类算法。应用无限高斯混合模型,利用MCMC估计贝叶斯多维尺度聚类层次模型参数,既能同时生成低维主坐标和进行基于模型的聚类,也能同时估计聚类分量个数和分量参数。
扩展Hoff提出的“均值与方差平移”模型为一个新的基于特征子集的非参数模型,此模型能自动选择聚类个数和进行子空间聚类。在给出基于MCMC的参数后验推断算法的基础上,出于计算速度上的考虑,给出了利用变分贝叶斯方法学习模型参数的方法。
给出了二值probit回归模型的坍缩变分贝叶斯推断算法。此算法比变分贝叶斯算法能够更紧地逼近对数边缘似然,得到更精确的模型参数后验期望值。
提出一种基于偏差信息准则(DIC)的鲁棒贝叶斯混合分布模型选择算法。在变分逼近框架下,给出鲁棒贝叶斯混合模型的DIC计算公式;设计的模型选择算法能同时进行参数推断和模型选择,避免在大的候选模型集中根据模型选择标准选取最优模型。
给出了二维主分量分析的概率模型。通过对此产生式概率模型参数的最大似然估计得到主分量(矢量);利用期望最大化算法迭代估计模型参数和主分量以处理缺失值问题:并扩充概率二维主分量分析模型得到混合概率二维主分量分析模型。