论文部分内容阅读
在融合了遗传算法(Genetic Algorithm, GA)和遗传编程(GeneticProgramming,GP)优点的基础上,2001年,葡萄牙学者F.Candida提出了基因表达式编程方法(Gene Expression Programming, GEP)。它采用简单的编码方式解决复杂的问题,对优化问题的处理速度比普通的GP快2~4个数量级。由于其操作简单、功能优越,因此,在很多领域得到广泛的应用,如公式发现、函数挖掘、关联规则发现等。传统的GEP方法只能用于处理二元决策分类问题,许多GEP分类器在处理多元分类问题时采用一对多的学习方法。本文提出了基于GEP的投影判别分析方法用于多类判别,并将其用于食品和有机化合物的持久性分类;本论文还对有机化合物毒性进行了定量构效关系分析。具体工作如下:1提出了基于GEP的投影判别分析方法(A Projection Discriminant AnalysisUsing Gene Expression Programming Method,简称GEPPDA),可以直接用于多元分类问题。该法首先采用GEP方法由原始变量经过非线性组合构建新的合成变量,然后将样本数据投影在新合成变量构成的空间里,再采用最近距离分类法对未知样本进行分类。为判定合成变量的优劣,本研究还提出了一个基于距离和分类错误率的新的目标函数。我们将GEPPDA方法用于有机化合物的持久性分类,结果表明该方法是多元分类的有效方法;采用GEPPDA方法可以对高维数据进行可视化分析,有助于对数据的理解。2将GEP方法用于有机化合物毒性的定量构效关系研究,并与人工神经网络(BP-ANN)和偏最小二乘(PLS)方法进行了对比。结果表明GEP方法得到的预测结果较好,且模型较稳定。3将GEPPDA方法应用于茶叶和橄榄油的分类,并与线性判别分析(LDA)和传统的一对多GEP方法(GEP-OAA)等方法进行了对比研究,得到了满意的效果。