机器学习在制药过程分析中的应用基础研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yifanjiawei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在复杂体系制药过程中,通常需要监测和控制多种关键工艺参数或关键质量属性,以确保生产过程正常运行,保证产品质量。研究如何将过程分析技术(Process Analytical Technology,PAT)应用于复杂体系制药过程监测与控制,具有重要意义。然而,目前在选择光谱技术作为PAT工具应用于制药过程监测时,通常使用传统的化学计量学方法并按照其相关流程进行PAT方法开发。作为人工智能领域发展最快的学科之一,机器学习已在不同类型复杂数据处理中取得突破。光谱数据也属于复杂数据,机器学习中的诸多“智能”算法理论上也能改进光谱数据处理流程,提高光谱分析模型性能,但机器学习方法在PAT中的研究和应用较为有限。为此,本研究将机器学习方法与思想,引入复杂体系制药过程分析技术光谱定量分析流程中。借助机器学习中的层次聚类分析(Hierarchical Clustering Analysis,HCA)、卷积神经网络(Convolutional Neural Network,CNN)、k近邻(k-Nearest Neighbor,kNN)与即时学习(Just-in-Time Learning,JITL)以及集成学习等方法或思想,从样本选择、光谱自动预处理、光谱特征可视化、模型更新和多模型融合等多个角度,开展了机器学习在复杂体系制药过程分析技术中的应用基础研究。本研究的主要内容及学术成果如下:1.提出了3种基于HCA的建模样本选择或重构方法。以山羊角水解过程为研究对象,以在线拉曼光谱为PAT工具,以所提3种基于HCA的方法从样本库中选择或重构样本,构建新校正集,建立了基于拉曼光谱的氨基酸浓度偏最小二乘(Partial Least Squares,PLS)定量校正模型,用于水解过程监测。样本选择或重构前,为提高模型预测性能,进行了基于实验设计的光谱预处理方法选择和光谱叠加数量优化。样本选择或重构步骤中,优化了HCA参数,考察了聚类数对模型性能的影响,并与经典的样本选择方法进行比较。使用基于HCA的3种样本选择或重构方法,从样本库构建新校正集,有望增加建模样本代表性,减少建模所需样本数并提高模型性能。2.探究了CNN光谱建模方法并挖掘了其光谱自动预处理功能。以实验室规模山羊角水解过程和工业规模三七层析洗脱过程为研究对象,分别以在线拉曼光谱和近红外光谱为PAT工具,设计CNN网络结构,建立多种分析物浓度的CNN定量校正模型。通过比较以原始光谱建立的CNN定量校正模型,和经光谱预处理优化的PLS定量校正模型,评价CNN建模方法的优劣,说明CNN方法可能无需依赖光谱预处理,该方法可望用于改进传统光谱分析流程。本研究进而尝试打开CNN模型的“黑匣子”,发现CNN模型可自动学习到不同的光谱变换方式,用于提取不同光谱特征。这些光谱变换与一些传统的光谱预处理方法具有相似的作用效果,可视为CNN模型的自动光谱预处理方法。CNN建模方法在光谱分析中具有独特优势。3.提出了CNN定量校正模型光谱特征可视化的方法。以三元氨基酸混合体系为研究对象,以拉曼光谱为分析工具,设计并使用2种CNN模型结构,建立3种氨基酸含量的CNN定量校正模型,进而探究CNN定量校正模型的光谱特征可视化方法。基于“类激活映射”理念所提的光谱特征可视化方法,具有一定的应用可行性,有助于增加CNN模型可解释性,理解CNN方法在光谱分析中应用的工作机理。4.探究了基于kNN和JITL的建模策略在模型更新中的应用。以工业规模三七层析洗脱过程为研究对象,以在线近红外光谱为PAT工具,应用基于kNN和JITL的模型更新策略,说明了其在模型建立和更新阶段的应用潜能。建立高效的模型更新策略,有助于降低模型维护成本,并保证模型性能可持续满足制药过程监测需求。5.探究了集成学习方法在多模型融合中的应用。以山羊角水解过程为研究对象,分别以在线拉曼光谱和离线近红外光谱为PAT工具,并分别以PLS和CNN算法为建模方法,以所建模型作为4个个体学习器。通过采用集成学习中的不同结合策略,融合个体学习器,发现集成学习方法具有提高模型预测性能的潜能,为不同PAT工具或建模算法的融合使用提供研究基础。
其他文献
日本沼虾(Macrobrachium nipponense)在我国是重要的淡水养殖虾类,具有重要经济价值。随着水体环境恶化和高密度养殖方法的广泛使用,使得淡水虾类病害频繁爆发,每年都会造成严重的经济损失。日本沼虾作为淡水虾类的代表,对其免疫系统尤其是抗菌免疫的分子机制进行研究具有十分重要的意义。SVWC(Single domain von Willebrand factor type C)蛋白家族
背景:急性肝衰竭(acute liver failure,ALF)是一死亡率极高的急危重症,其发病机制仍未完全清楚。我们近年的研究证实,urotensin II(UII)/UII receptor(UT)系统在ALF发生发展过程中起关键作用,该信号系统的激活介导了ALF肝组织免疫炎症损伤反应。p120-连环蛋白(p120-catenin,p120ctn)是血管内皮细胞及上皮细胞起固有免疫反应的重要
背景急性重症胰腺炎(SAP)的死亡率居高不下,早期液体复苏是急性重症胰腺炎诊治的关键措施之一。但由于液体向第三间隙转移积聚会加重病理损伤,因此液体管理成为贯穿整个SAP诊
眉县地处关天经济区核心地带,从2010年成功创建国家级生态示范区以来,以“生态立县、旅游兴县、工业强县、农业富县”四大战略为导向,下辖8镇中7镇均被确定为省级生态镇,常兴
近年来随着科学技术的发展,对纳米胶束和自愈合水凝胶功能材料的需求越来越大。在作为药物的载体方面自愈合水凝胶和纳米胶束具有许多独特的优势,均在新型载药系统领域显示了
目的卒中后抑郁(Post-stroke Depression,PSD)是指脑卒中后诱发的抑郁症状,是脑卒中后最常见的情感障碍疾病之一。PSD对脑卒中患者神经功能康复、生活质量和生存率有重要影响,明显加重患者本人、家庭及社会的经济负担,因而目前受到越来越多的关注[1]。但PSD发病机制并不十分清楚,课题组前期研究发现,海马结构的损伤与PSD的发生密切相关,“海马神经重塑障碍”是其关键步骤,因JAK/
[背景]湿疹是一种常见的皮肤病,其特点为皮损形态多样,伴有强烈瘙痒,易反复发作,容易演变成慢性发病。湿疹的复发性、顽固性、瘙痒性及病程的缠绵严重影响患者的生活质量,给患者带来极大困扰。西医认为湿疹为皮肤炎的一种,采取的多为激素和免疫疗法。激素和免疫制剂内外治法虽然在短期内有一定的疗效,但多伴有较大的副作用且不容易根治湿疹。因此还需找到更好的、有效的、安全的疗法。中医对湿疹的认识由来已久,治疗手段更
目的:通过数据挖掘的方法,深入研究曲艳津主任在临床中治疗高血压眩晕的用药规律,分析其辨治思路,学习其治疗经验,剖析其学术思想,为以后临床医治高血压眩晕奠定理论基础及提供新的诊疗思路。方法:收集曲艳津主任2018年1月-2019年6月期间在天津市中医药研究院附属医院脑病科门诊收治符合高血压病中、西医诊断的患者所使用的共计206首有效中药处方。在数据标准化后,使用WPS表格录入数据形成数据库,进行初步
不管是天然纤维还是化工纤维材料中都具有多孔结构,且纤维材料中大量存在着一种普遍且特殊的分形分叉结构。如动物的毛皮和植物的运输系统都是属于纤维材料分形分叉结构。在
从脑部序列图像中将脑组织与颅骨、眼球、皮肤、脂肪等组织分离出来的过程称为脑组织提取,是脑部MRI图像分析的重要处理步骤,在fMRI图像配准、脑组织分割、脑容量测量等方面有重要应用。快速准确的提取脑组织在临床和研究中有重要应用。本文在CUDA并行计算平台提出了一种并行脑组织提取方法,该方法该方法结合了并行BET算法和并行水平集方法,是一种混合算法。本文主要贡献有:1、为进一步提高并行水平集计算速度,