纵向数据中的几类变量选择方法及其应用研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:hhz20091
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在统计学中,越来越多的人开始关注纵向数据以及纵向数据模型,有着十分广泛的应用,尤其在医学和社会学的研究领域,为人们的生活带来了很大的便利。纵向数据结合了截面数据和时间序列数据的特征,纵向数据可以反映出样本随时间变化的规律以及样本间和样本内的差异,从而增大了信息量,所以在统计学中对纵向数据模型的研究是必不可少的。广义估计方程(GEE)可以对因变量符合二项分布、正态分布、高斯分布等多种分布拟合相对应的模型,从而解决了纵向数据研究中因变量相关的问题,从而可以得到稳健的参数估计值。本文从理论,模拟以及实例分析三部分介绍了纵向数据中的几类变量选择方法及其应用研究。理论部分首先对纵向数据的GEE(广义估计方程)和工作相关矩阵的内容进行介绍,并且给出了广义估计方程在纵向数据研究中的优势;以及变量选择的几种准则,对AIC准则、BIC准则、QIC准则、EAIC准则、EBIC准则、GAIC准则以及GBIC准则的主要内容进行了阐述,在模拟中会比较这些准则在变量选择中的性能,找到变量选择效果较优越的一种准则。在模拟部分将QIC、EAIC、EBIC、GAIC和GBIC扩展到纵向数据分析中,以GEE(广义估计方程)为框架进行协变量的选择,开展模拟试验,利用R软件的数据包生成相关响应变量(泊松响应,高斯响应,离散二项响应),然后考虑三种相关结构(Ind,Exc,AR(1)),即当响应变量不同时,这几种准则在选择协变量方面的性能。验证了GAIC和GBIC是优于其他几种的变量选择的方法,EAIC和EBIC只有当工作相关结构正确指定时才有效,而GAIC和GBIC的表现好与工作相关结构是否被正确指定无关,之后将GAIC和GBIC这两种相较于其他几种表现较好的准则运用在实例分析中。在实例分析探究影响人身保险保费收入的因素,以人身险保费收入为响应变量,协变量选择为城市化率、抚养比、国内生产总值以及城乡居民储蓄存款这四个影响因素,收集中国黑龙江省、吉林省、辽宁省(中国北部);北京市、天津市、重庆市、上海市(四个直辖市);福建省、广东省(中国南部);陕西省、湖北省(中国中部);西藏自治区、内蒙古自治区、宁夏回族自治区(自治区)这些具有地域特点的区域2012年至2018年的相关数据,在多个方面进行研究。最终得到的结论是,城乡居民储蓄存款、国内生产总值与城市化率的组合作用,对人身保险保费收入的影响较为显著;抚养比对人身保险保费收入的影响较为不显著的结论。
其他文献
互联网金融在我国的快速发展,为我国的金融市场注入了创新的元素的同时,也对我国整体金融环境带来了更多的不确定性。而众筹作为近几年兴起的互联网金融,能高效地匹配支持者和投资者直接投融资需求、优化资源配置,得到了创业者和支持者的青睐。因此,互联网众筹活动在全球范围内得到了迅速发展。但是,作为一种“舶来品”的融资模式,众筹在我国特有的市场环境下表现出了区别于国外的特点:在我国目前的众筹环境下,可观测到相比
本文采用共时和历时相结合、定量与定性分析等方法,结合语料参考辞书,旨在研究先秦至两汉时期“病”类词的演变情况。文章选取先秦至两汉时期的代表性文献并结合语料库。我们以“病”类词为例,根据目标词的历时语料,划分出有统一标准和逻辑结构的义项,“病”类词的义项同中有异,相同义项的搭配、语境、对应的语法功能也是同中有异,我们从这四个方面出发,对先秦至两汉时期的“病”类词进行出区分。论文主体分为五部分:第一部
当下,激烈的竞争使得传统的电信行业处于深化变革之中,电信产业的传统通讯业务已基本趋近于饱和,为保持竞争力需要使客户流失情况得到控制,根据已有业务信息用户数据建立有效的预测机制并制定策略,对电信企业的产业发展具有重要的意义,保证市场经营活动的良好稳定开展。而人工智能的发展几经沉浮现在已经迎来了质的飞越,在产业中开始扮演着基础性、关键性和前沿性的核心角色。本文主要介绍了机器学习算法中决策树的理论与算法
以信用卡为媒介的金融科技正成为一种不可逆的潮流,呈现方兴未艾之势,但随之的信用卡欺诈风险也日益升级。信用卡欺诈每年给消费者和金融公司造成巨额损失,诈骗者不断试图寻找新的规则和策略来实施非法行为,构建精准有效的信用卡欺诈交易识别系统已成为金融领域永恒的主题。本文在充分熟悉信用卡欺诈相关理论和现有的信用卡欺诈检测技术的朴素贝叶斯、支持向量机、K近邻算法等数据挖掘方法的基础上,提出了一种基于Smote-
环保行业在竞争日益加剧的严峻背景下,各地的融资渠道逐渐趋紧,再加上环保企业由于自身经营管理不善,导致其面临巨大的违约风险,因此,拓宽融资渠道、更加高效地进行资金管理成为当前环保企业长效发展的关键。在无限经济发展和有限环境资源间的双重掣肘下,规模化的投融资需求使得环保企业更倾向于发行绿色债券,因此,绿色债券的出现开辟了低成本融资新模式,缓解项目融资难、融资贵等问题,与此同时增加了绿色服务供给并产生了
“新时代”应优先发展教育事业,加快教育现代化以及教育强国的建设步伐,促进教育公平已成为实现中华民族伟大复兴最基础性的工作。高中排球作为学校体育中具有较大影响力的集体项目,也应顺应新时代要求实现新的发展,从而为体育强国服务。以马克思主义唯物辩证法为本文主要指导思想,文章也融入了中国特色社会主义教育思想和学校体育教学基本理论、数理统计的因子分析法,以及管理学的管理模式及策略研究等理论为指导,以芜湖市高
随着我国工业化进程的迅速推进,近年来我国的空气污染问题日益严峻。与此同时,人们的健康意识不断增强,对空气质量问题也越来越重视。PM2.5是雾霾天气的主要成因,空气中的PM2.5浓度越高,空气污染越严重。目前,空气质量数据主要来源于国家建立的空气监测站点,但站点的监测范围无法覆盖所有区域,因此需要对监测未覆盖区域的PM2.5进行预测。现阶段最先进且应用最广泛的空气质量预测模型是CMAQ(CMAQ,C
机构投资者最早起源于英国,随后逐渐成为了西方证券市场上的投资主体,在证券市场上产生举足轻重的影响。近十年来我国也不断推行一系列法律政策使得机构投资者在持股规模、资金实力与技术水平方面都实现了巨大的转变,成为了我国证券市场的十分重要的角色。随着机构投资者参与介入上市企业公司治理活动积极性的提高,越来越多的学者开始关注机构投资者是否有益于改善企业整体绩效情况。针对两者之间的关系,本文将在现有研究的基础
随着线上购物平台的蓬勃发展,一方面互联网的日趋成熟便捷了人们的生活,提高了人们的生活质量;另一方面,由此产生的海量数据中隐含巨大待开发的价值。线上消费者数据的研究除了具有巨大的社会商业价值,也具有重要的学术研究价值。线上消费者行为数据类型复杂,分析角度众多。如何从海量数据中挖掘有效信息?何种分析角度更高效且具有意义?这些都是研究人员一直在思考和改进的问题。更多数据的出现,使分析数据的工具得以发展,
“十二五”以来重庆市旅游业发展迅速,特别是2016年之后,更是迎来了爆发式的增长。重庆市的经济发展一直以来更多的是依靠工业,制造业等第二产业。但2017年开始,借助短视频平台的兴起、“网红城市”的宣传,重庆市开始大力发展旅游业。近些年来,重庆市旅游业发展的确渐入佳境,取得了可喜的成绩。但是作为旅游的后发城市,其基础建设还不够完善。所以重庆市旅游业对重庆市经济贡献究竟发展如何,重庆市旅游业发展现状在