一种基于分段决定系数的可预测性指标及其应用

来源 :湖南农业大学 | 被引量 : 0次 | 上传用户:scx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
环境污染物的毒性检测对于环境治理具有重要意义。常规的实验检测方法费时耗力,而且有可能造成污染物的泄露导致造成二次污染。定量构效关系(Quantitative structure-activity relationship,QSAR)可以作为实验检测结果的有效补充,能够通过化合物的结构特征来预测其毒性,通过特征选择方法选取合适的特征进行预测是QSAR研究的一个重点。准确测度两个变量间的关联是特征选择的基础。Pearson相关系数R仅能捕获线性相关,最大信息系数(maximal information coefficient,MIC)能捕获非线性关联,但存在无法反映可预测性的缺陷。如函数关系:(Y-0.5)~2=X,(Y∈[0,1]),尽管X与Y之间的关联程度达到最大为1(MIC(X,Y)=MIC(Y,X)=1),但基于X的支持向量回归(support vector regression,SVR)模型并不能准确预测Y,其可预测性约为0。本文借鉴Fisher最优分割策略和统计学习理论中的结构风险最小化原则提出矫正最大可预测性系数(Adjusted maximal predictability coefficient,AMPC)。等价性好的测度指标在不同函数的相同强度噪音水平下,其得分应当接近,AMPC对10个不同函数获得了近乎完美的等价性。在5个不同函数上,整体而言,AMPC的统计功效明显优于R~2、d Cor、MIC和Chi MIC。将AMPC指标作为最大相关最小冗余(minimum Redundancy Maximum Relevance,m RMR)特征选择方法中的冗余与关联测度指标,发展了最优特征子集选择新方法AMPC_share。使用Housing数据集与PLSR、STEP和KNN-FABC等其他九个特征子集选择方法进行比较,AMPC_share特征子集选择方法使用最少的特征获得了最优的结果。三个醇酚类化合物毒性QSAR数据集的分析结果表明,基于AMPC_share选择特征的SVR模型进行独立预测,其R~2分别为0.949、0.936、0.983,结果优于文献报道,且所用特征更少。进一步验证AMPC作为回归模型的预测能力。与分别使用线性核与径向基核的SVR模型参比,用于555个因果关系数据集的独立预测。结果显示AMPC在536个数据集上的预测精度优于线性核SVR,在535个数据集优于径向基核SVR模型,且在计算耗时上显著低于SVR模型。
其他文献
2018年中央1号文件《中共中央国务院关于实施乡村振兴战略的意见》明确提出:扶持小农户发展生态农业、设施农业、体验农业、定制农业,提高产品档次和附加值,拓展增收空间,改善小农户生产设施条件,提升小农户抗风险能力。在这一时代背景下,小农户的地位和未来发展方向受到极大的关注,生态农业与小农户的有机衔接无疑为改善农业生产环境,保护农业生物多样性和农业生态系统,提高农民的收入和健康福祉提供了可行路径。虽然
洞庭湖湿地蕴藏着巨大的生态价值,在世界范围内是非常重要的生态湿地,如何保护湿地生态系统的坏境可持续发展是当前国际上的重要问题。合理开发洞庭湖湿地对于推动湖南省的经济发展有着重要的作用。湿地生态系统服务价值能够直观的体现洞庭湖湿地生态系统服务功能,本文以运用当量因子法测算洞庭湖湿地生态系统服务价值为基础,用生态补偿的方式作为洞庭湖生态系统服务价值实现的体现,唤醒人们对与洞庭湖湿地生态系统的保护,通过
蓝莓渣是蓝莓酿酒或榨汁之后产生的废弃物,以蓝莓渣为原料提取总黄酮不仅可以丰富蓝莓加工产品的种类,而且对于提高蓝莓加工副产物的经济价值也有一定的积极作用。目前对于蓝莓黄酮类物质的研究主要集中在蓝莓果实,而对于从废弃蓝莓渣中提取总黄酮的研究不多。本文以蓝莓渣为原料,针对总黄酮的提取纯化工艺开展研究,并考查其抗氧化性。本文的主要研究内容和结果如下:以总黄酮提取率为试验的评价指标,通过单因素试验确定各因素
我国咸鸭蛋生产历史悠久,但其生产加工中普遍存在黑圈现象,这不仅影响咸蛋黄的外观,更不利于其销售与发展。为探索咸蛋黄黑圈现象形成的原因,对咸蛋黄的基本成分以及黑圈部位的物质成分进行了初步的分析鉴定,并在此基础上提供了一些改进思路,本研究主要包括以下内容:(1)分别从原料鸭的饲养方式、鸭蛋蛋壳颜色、鸭蛋新鲜度、不同的腌制料液含盐量、腌制时间、高压杀菌温度和高压杀菌时间几个方面研究了不同条件对咸鸭蛋黑圈
随着经济的快速发展,城市较高的收入、便利的生活条件、较完备的保障系统、更好的教育医疗资源吸引着新生代农民工,城市的各种“拉力”使大量的新生代农民工涌入城市,然而,新生代农民工进入城市后,想定居在城市就面临着巨大的困难:户籍制度的制约、高房价、高生活成本、快节奏的生活等。于是,新生代农民工不得不面临着一个现实困境:返回家乡定居还是定居在当前务工城市?目前有关新生代农民工的研究,主要倾向于探讨新生代农
针对湖南烟-稻轮作区因传统耕作方式缺陷导致的烟田耕层浅薄、土壤质量持续下滑、肥水利用效率不高等问题,采用田间大区试验,结合多点重复性取样,研究垂直深旋耕对植烟土壤物理特性、主要养分特性、AM菌根真菌群落结构及其多样性、烟株根系、AM菌根侵染特点以及烤烟生长发育等的影响,为垂直深旋耕技术在我省稻作烟区应用的可能性提供试验支撑。主要研究结果如下:1.垂直深旋耕显著影响土壤温度与土壤积温。垂直深旋耕对5
本论文建立了农药残留标准质谱库,开发了新型化学计量学分析算法,初步实现了蔬菜中多种农药残留自动化定性定量检测。创建了237种常见农药标准质谱库,开发了一种适用于蔬菜中多种农药残留自动化检测的新型化学计量学方法,利用所建立的方法实现了对韭菜、韭花、韭黄以及空心菜等样品中多种农药残留的快速检测。此外,我们将所建立的农药残留标准质谱库和化学计量学算法进行了软件化。主要研究内容与结果如下:(1)农药标准质
激光焊接作为一种高质量的熔接工艺,是比较成熟的制造技术,但能量转换效率低、间隙桥接差等缺陷限制了其进一步发展。为解决上述问题,近年来多种激光复合热源焊接技术不断涌现。激光复合热源焊接技术是激光束与其他热源复合,通过两种热源的协同效应,弥补单纯激光焊接的不足之处,通过焊接单一热源难以完成的接头形式,来获得单热源难以达到的高效焊接效果。激光复合热源焊接技术具有焊接速度快、焊接质量好等优势,在汽车、航空
十二五工作的推进,扶贫工作初见成效。摆脱贫困的人数每年都在增加,可脱贫人口可持续发展的关注度还不是很高,因此,本文以脱贫农户为突破口,基于可持续生计理论,对衡山县的脱贫农户开展调查,分析其可持续生计能力的高低,并探讨生计资本如何对生计策略产生影响。通过学习和运用可持续生计理论,以问卷调查为主要的调查方法,收集部分脱贫农户的信息,主要包括农户家庭目前的生计资本与生计策略情况。采用专家打分法、层次分析
苎麻是我国重要的纺织纤维作物,在云南、四川、湖南等省份广泛种植。苎麻中活性成分的研究主要集于在苎麻的根和叶,而未见苎麻籽中黄酮类化合物的研究报道。因此本文将开展苎麻籽黄酮的提取、鉴定、初步纯化及体外抗氧化、抑制α-淀粉酶和抑菌能力研究,旨在为苎麻籽的开发利用提供研究基础。主要研究内容和结果如下:(1)通过DPPH-HPLC实验,发现苎麻籽乙醇提取物中存在多种抗氧化活性成分,扫描各色谱峰后初步推断其