论文部分内容阅读
在复杂体系制药过程中,通常需要监测和控制多种关键工艺参数或关键质量属性,以确保生产过程正常运行,保证产品质量。研究如何将过程分析技术(Process Analytical Technology,PAT)应用于复杂体系制药过程监测与控制,具有重要意义。然而,目前在选择光谱技术作为PAT工具应用于制药过程监测时,通常使用传统的化学计量学方法并按照其相关流程进行PAT方法开发。作为人工智能领域发展最快的学科之一,机器学习已在不同类型复杂数据处理中取得突破。光谱数据也属于复杂数据,机器学习中的诸多“智能”算法理论上也能改进光谱数据处理流程,提高光谱分析模型性能,但机器学习方法在PAT中的研究和应用较为有限。为此,本研究将机器学习方法与思想,引入复杂体系制药过程分析技术光谱定量分析流程中。借助机器学习中的层次聚类分析(Hierarchical Clustering Analysis,HCA)、卷积神经网络(Convolutional Neural Network,CNN)、k近邻(k-Nearest Neighbor,kNN)与即时学习(Just-in-Time Learning,JITL)以及集成学习等方法或思想,从样本选择、光谱自动预处理、光谱特征可视化、模型更新和多模型融合等多个角度,开展了机器学习在复杂体系制药过程分析技术中的应用基础研究。本研究的主要内容及学术成果如下:1.提出了3种基于HCA的建模样本选择或重构方法。以山羊角水解过程为研究对象,以在线拉曼光谱为PAT工具,以所提3种基于HCA的方法从样本库中选择或重构样本,构建新校正集,建立了基于拉曼光谱的氨基酸浓度偏最小二乘(Partial Least Squares,PLS)定量校正模型,用于水解过程监测。样本选择或重构前,为提高模型预测性能,进行了基于实验设计的光谱预处理方法选择和光谱叠加数量优化。样本选择或重构步骤中,优化了HCA参数,考察了聚类数对模型性能的影响,并与经典的样本选择方法进行比较。使用基于HCA的3种样本选择或重构方法,从样本库构建新校正集,有望增加建模样本代表性,减少建模所需样本数并提高模型性能。2.探究了CNN光谱建模方法并挖掘了其光谱自动预处理功能。以实验室规模山羊角水解过程和工业规模三七层析洗脱过程为研究对象,分别以在线拉曼光谱和近红外光谱为PAT工具,设计CNN网络结构,建立多种分析物浓度的CNN定量校正模型。通过比较以原始光谱建立的CNN定量校正模型,和经光谱预处理优化的PLS定量校正模型,评价CNN建模方法的优劣,说明CNN方法可能无需依赖光谱预处理,该方法可望用于改进传统光谱分析流程。本研究进而尝试打开CNN模型的“黑匣子”,发现CNN模型可自动学习到不同的光谱变换方式,用于提取不同光谱特征。这些光谱变换与一些传统的光谱预处理方法具有相似的作用效果,可视为CNN模型的自动光谱预处理方法。CNN建模方法在光谱分析中具有独特优势。3.提出了CNN定量校正模型光谱特征可视化的方法。以三元氨基酸混合体系为研究对象,以拉曼光谱为分析工具,设计并使用2种CNN模型结构,建立3种氨基酸含量的CNN定量校正模型,进而探究CNN定量校正模型的光谱特征可视化方法。基于“类激活映射”理念所提的光谱特征可视化方法,具有一定的应用可行性,有助于增加CNN模型可解释性,理解CNN方法在光谱分析中应用的工作机理。4.探究了基于kNN和JITL的建模策略在模型更新中的应用。以工业规模三七层析洗脱过程为研究对象,以在线近红外光谱为PAT工具,应用基于kNN和JITL的模型更新策略,说明了其在模型建立和更新阶段的应用潜能。建立高效的模型更新策略,有助于降低模型维护成本,并保证模型性能可持续满足制药过程监测需求。5.探究了集成学习方法在多模型融合中的应用。以山羊角水解过程为研究对象,分别以在线拉曼光谱和离线近红外光谱为PAT工具,并分别以PLS和CNN算法为建模方法,以所建模型作为4个个体学习器。通过采用集成学习中的不同结合策略,融合个体学习器,发现集成学习方法具有提高模型预测性能的潜能,为不同PAT工具或建模算法的融合使用提供研究基础。