论文部分内容阅读
矽肺是吸入二氧化硅粉尘颗粒所致的以肺间质纤维化为主的全身性疾病。早期健康监护是矽肺防治的关键环节,但至目前尚无有效的早期健康监护指标。探讨矽肺的发病机制和探索发现血清早期诊断(筛检)的生物标志物,对预防、治疗乃至最终消除矽肺具有重要的经济和社会意义。近年蛋白质组学技术特别是质谱技术的发展为矽肺诊断开拓了新领域,一种新的应用功能磁珠、基质辅助激光解吸电离飞行时间质谱(MALDI-TOF-MS)和ClinProTools软件包组成的ClinProt系统以其高敏感性和可重复性被用于血清蛋白质表达谱的研究[1]。利用磁珠分离、去除样品中的高丰度蛋白和其他杂质,同时富集低丰度目的蛋白。经飞行时间质谱测定得到在矽尘暴露人群和正常对照组之间表达差异的蛋白质,为寻找矽肺生物标记物提供重要的的线索。如何从高通量的血清蛋白质谱数据中筛选出可能的疾病早期标志物,是应用质谱技术进行疾病分析的的前提。本研究采用液体蛋白芯片飞行时间质谱作为检测手段,将Relief算法、遗传算法结合支持向量机(SVM)应用于MALDI-TOF-MS质谱数据,构建矽尘暴露人群诊断模型,筛选早期矽肺血清蛋白生物标志物,其拓展的分析技术和所发现的诊断标志物,具有一定的临床诊断与应用价值。主要工作分为以几个方面:1)在对特征筛选的基本原理进行研究的基础上,通过比较不同算法的优缺点和多种算法的实验数据分析,获得了针对本研究比较恰当的特征筛选方法。2)在对Relief算法、遗传算法和支持向量机基本原理进行深入分析的基础上,提出了通过Relief算法对矽肺血清蛋白质谱的原始数据集进行初步筛选,再利用遗传算法作为搜索策略,支持向量机作为评价准则的特征选择算法,建立了一种矽肺血清蛋白标记物的筛选方法。3)通过实验表明,在应用本研究提出的Wrapper-Filter混合算法对各期矽肺暴露人群和健康对照人群质谱数据特征蛋白峰进行筛选的基础上,基于最优特征蛋白峰子集建立各期矽尘暴露人群诊断模型,取得了较好的分类性能,无尘肺0期、无尘肺0+期和I期矽肺与正常对照组之间的诊断正确率分别为96.30%、96.85%和97.44%。