协变量缺失下零膨胀模型的变量选择

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:cfzzfz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在农业、计量经济学、制造业、医学以及道路安全等众多领域的研究中,计数数据经常遇到,拟合此类数据常用的分布有泊松分布,二项分布以及负二项分布等。然而在实际中所观测到的数据有时具有很大比例的零,传统的计数分布不再适用。因此学者们将计数分布模型与退化零模型进行联合建模,提出零膨胀回归模型来拟合此类数据。本文则对零膨胀模型在实际建模中遇到的问题进行分析研究,提出解决对策。针对计数数据存在上限的问题,本文提出零膨胀二项回归模型。假设混合概率4)和事件发生概率4)分别遵循参数为和的logit回归模型,建立得分方程求解得到参数估计。针对零膨胀二项回归模型的协变量缺失问题,本文采用逆概率加权估计方法,可以纠正因删除不完全情况而导致的偏差,并采用逻辑回归模型来定义权重,建立估计量的相合性和渐近正态性等大样本性质,得到渐近方差-协方差矩阵的一致估计。针对协变量多且具有相关性的问题,本文在加权似然函数的基础上添加SCAD、MCP和LASSO惩罚函数,得到基于零膨胀二项回归的惩罚目标函数,然后利用EM算法研究模型的参数估计和变量选择问题。为证明所建立模型的有效性,给出了不同样本量、不同协变量缺失比例,不同零比例下该模型的蒙特卡罗模拟。仿真结果表明:协变量缺失时,逆概率加权方法对于估计零膨胀二项回归模型具有良好的性能。在均方误差方面,零膨胀部分的参数估计效果优于二项分布的参数估计,SCAD惩罚方法要优于其他方法;在敏感性方面,当样本量为100时,零膨胀部分的LASSO和SCAD惩罚的敏感性都不太高,MCP展现出更好的效果。当样本量增加至300时,所有惩罚函数的敏感性都有所提高。而在二项分布部分,所有方法的敏感性和特异性都随着样本量的增加,效果更加优越。同时得出协变量没有缺失时惩罚模型的估计结果与应用逆率加权惩罚模型得到的估计结果均是渐近无偏的。
其他文献
纤维素基柔性导电材料具有良好的柔韧性、对环境友好、较高的导电率等优点,因而在智能可穿戴设备中具有很大的应用潜力。文中列举了纤维素基导电材料的制备方法,详细阐述了纤维素与碳材料、导电聚合物复合得到的柔性导电材料的特点,同时诠释了在纤维素基中掺入N、P、S、B等杂原子以及金属化合物对其导电性能的影响。并提出基于纤维素基柔性导电材料存在的问题和未来发展方向。
乡村振兴战略背景下,美丽乡村建设不仅要求村庄景观良好,更要求产业兴旺。"景村融合"模式的乡村发展策略是响应乡村振兴战略的有效途径之一。文章以芜湖市繁昌区孙村镇长寺村为例,基于"景村融合"的发展策略,从产业发展、生活服务、生态环境三个方向进行村庄综合整治规划,利用现有景观资源实现"景村互动、农旅互兴",从而推进"山水宜居,景村宜旅"的美丽乡村建设。
KWHL是"已经知道什么(What we know)、想知道什么(what we want to know)、如何知道(how we will find out)以及学到什么(what we learned)"的英文简称。KWHL表格让教师的"追随"不断融入"自我评估——捕捉兴趣——预设生成——回顾反思"的循环中,得以在观察、评估、记录幼儿的学习经历中支持幼儿不断发展,获得连续性的经验与探究
期刊
近十年来,自主性已成为外语教学和英语学习的热门话题。英语的教学环境在不断变化,英语教学格局也随之变化,不断变化的大背景对教师这一角色有了新的要求,而越来越多的教师在新的背景下能够认识并接受自主性、能动性和身份认同观念。在不断变化的环境中,关于“英语学习者”或“英语教师”的含义,如何促进学习者和促进外语学习变革的新概念以及教师对自身在外语教学中所扮演的角色受到日益关注。随着对英语能力和英语学习重视程
随着互联网+时代的到来,各种新媒体潮流的涌现,高校人才引进宣传也需要更加呈现自身的优势,以吸引更多优秀人才。传统的引才模式,各高校依托官网平台、赴其他高校硕博士点宣传等方式是主要的引才渠道,存在着渠道单一、信息不对称的问题,在这个信息随时变化的时代,依托专业的教育咨询公司做高校整体的品牌宣传以及精准地引才,将是重要的选择。面对机遇、挑战,H教育咨询公司凭借在教育行业数十年的经验和资源,勇敢面对,通
随着全基因组关联研究的发展,越来越多的与癌症相关的致病基因被发现,探究这些基因如何作用于疾病成为了生物医学与生物信息学的热点。基因与环境共同作用影响着复杂疾病的发病机制,因而基因-基因与基因-环境的交互效应发展成了一个多领域、跨学科的研究焦点。本文针对交互效应的变量选择问题,提出了两种惩罚回归方法。本文的主要内容与结论如下:(1)对于基因-基因交互效应,提出了层次型最大最小凹惩罚方法(Hierar
当下,数字新媒体技术为语言学习与教学带来了便利,同时也对语言教师的计算机辅助语言教学能力提出了更高的要求。目前,国内在教师教育方面的研究已经相对完善,但是有关语言教学中技术整合培训方面的研究仍然十分匮乏。因此,笔者选取《计算机辅助语言教学中的教师教育》一书作为此次翻译实践的材料。本书主要介绍了作者根据自身教师教育的工作经验,立足于二语教师认知研究及计算机辅助语言教学技术整合的交叉点,以社会文化理论
时间序列是随机事件按照时间顺序的变化发展过程,目前,时间序列已被广泛用于水文、气象学、地震预测、经济学及军事等诸多领域,具体包括温度变化、个人健康数据、期货股票价格、广告数据等。时间序列分析是时间序列领域最早出现、最普遍的方法,它是一种对某一时间序列进行观察、分析、寻找变化发展规律的方法。常见的时间序列分析包括AR模型、MA模型及它们的变体等。随着云计算的发展,时间序列的数量正在迅速膨胀,大量的数
学位
计算机的计算能力不断以数量级单位增长,计算力的突破革新使得数据的获取和存储更加便捷。数据相关技术的提升大大降低了计算成本,为数据的收集提供了敦实的基础。庞大且复杂的现实数据使得高维统计方法在大数据时代大放光彩,变量选择作为高维统计不可或缺的重要组成,在大数据应用中展现出明显的优势。贝叶斯变量选择方法即从贝叶斯的角度发展的变量选择方法,该类方法容易基于现实认知结合各种先验知识,可充分利用认识主体对数