论文部分内容阅读
本文研究了机器学习算法在橡胶混炼过程控制、天气预报及基因识别等不同领域的应用。橡胶混炼是橡胶产品加工流程的第一步,混炼胶质量直接影响后续工序和橡胶产品的质量。作为重要质量指标之一的门尼粘度,其严重的测量滞后一直是制约橡胶混炼过程控制进一步发展的瓶颈。本文根据橡胶混炼机理,首次提出用混炼胶的流变参数预测门尼粘度。并针对混炼过程的特点,提出一种新的机器学习算法DRPLS-GP(Discounted-measurement Recursive Partial LeastSquares-Gaussian Process)。利用折息因子的引入克服“数据饱和”现象,用DRPLS提取潜变量来克服原始数据中的噪声和变量之间的多重相关性,而后潜变量作为GP的输入进行非线性回归。另外,DRPLS-GP可以灵活地调节折息因子,确保了对不同配方混炼胶门尼粘度的精确预测。特别地,它能够通过递推的方法对模型实时地更新,因此该方法在工业中具有很强的实用性。为了提高气候预测性能,克服变量之间的强烈非线性,提出一种新的非线性方法GPLS-GP(GeneralizedPartial Least Squares Gaussian Process)。通过非线性扩展的PLS算法提取潜变量克服原始数据中的噪声以及变量之间的相关性,更重要的是通过扩展变量的方法以及非线性的GP内模型可以得到精确的非线性关系。经过实例验证,GPLS-GP较传统的方法GPLS,PLS及GP的性能好。为了促进基因识别方法的快速发展,本文将八种常用的线性和核函数模式识别技术用于识别人类基因短编码序列(从21-192bp),对其进行评估并寻找Z曲线中变量的最优组合。通过衡量预测精度、计算时间以及权衡敏感性和特异性等因素,得出最优线性和非线性分类机分别是PLS和KPLS,为生物学家选择分类机提供了可靠依据。并通过分析发现93个Z曲线变量为最优的组合。