对比例预测模型的改进

来源 :现代经济信息 | 被引量 : 0次 | 上传用户:david6357
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:有許多预测因变量的模型存在,但是他们中大部分是破坏了因变量的原来的分布结构的,或者这些模型比较适合因变量类别较少的情况。而比例预测模型刚好相反,它的预测结果保留因变量原来的分布结构而且比较适合于因变量类别较多的情况。尤其在大数据的环境下,变量极其繁多,数据量也很大,比例预测模型有其重要的地位。事实上,用比例预测模型预测因变量类别的准确性可能并没有一些模型的高(如:逻辑回归模型,决策树等)。所以,在这里提出对比例预测模型的改进,使得模型的预测正确率有所提高,同时又使得预测的因变量的分布情况接近于原始数据中因变量的分布。
  关键词:关联矩阵;混淆矩阵;提升度;蒙特卡罗模拟抽样;GK-
  中图分类号:O212 文献识别码:A 文章编号:1001-828X(2016)021-000-02
  怎样对比例预测模型进行改进:
  1.提升度
  这里,我们提出的提升度不是提升度[1]或者其他的提升度。这只是我在这里提出用来衡量当x=i引入时,对y=s的提升程度。其中x,y分别表示自变量和因变量,而i,s分别表示x的第i类和y的第s类别。下面我们用lifti,s来表示。
  这里lifti,s≥0,当然提升度值越大越好,lifti,s越大,则表示x=i的引入对y=s的预测越有帮助。当表示x=i的引入对y=s的预测是有帮助的,相反如果lifti,s<1,则表示x=i的引入对y=s的预测帮助不大,我们认为这是小概率事件。所以我们在预测的时候可以充分提升度的性质对模型进行改进。
  这里,我们还发现,如果对提升度的分子进行求和,即,这便是[2]中的计算公式。而且它也和[3]和[4]中GK-密切相关的。
  2.对比例预测模型改进的步骤
  (x-y 矩阵代表有自变量和因变量组成的列联表来源于原始数据)
  根据比例预测模型的机理,我们可以通过蒙特卡罗模拟抽样对因变量进行预测。这里我们不妨将提升度也考虑进去,即把哪些lifti,s<1 的小概率事件去掉,直到存在的可能的概率事件都是lifti,s≥1的。这里要注意的是,我们并没有设法改变原始样本数据,只是改变p(y=s|x=i)的条件概率。因为原始的条件概率可能涉及小概率事件或者并没有凸显出较大概率事件。
  总结出改进的步骤如下:
  (1)在x-y列联表和lifti,s两个矩阵中,同时去掉lifti,s<1 的单元;
  (2)用新的lifti,s矩阵的每个单元与新的x-y列联表所对应的单元相乘,这样就得到新的x-y列联表,再对新的x-y列联表进行标准化,即用每一行的每个单元除以该行总数,使得每一行加起来为1,即得到新的p(y=s|x=i)的条件概率;
  (3)p(x=i|y=s)的概率是建立在原来的x-y列联表上,但当x=i,预测y=s的条件概率p(y=s|x=i)变成2)中的新条件概率即,再运用蒙特卡罗抽样实验得到错判矩阵,从而得到混淆矩阵。
  3.实际的例子
  数据是来自1996年加拿大的家庭支出的问卷调查统计的数据。它记录了上百个变量,数据经过整合之后有10417个样本,现在我们选择rooms,bedrooms分别作为自变量和因变量。
  (2)表二:分别使用蒙特卡罗预测得到结果的因变量的分布情况的比较(这是我们分别进行5次蒙特卡罗模拟抽样的平均结果):
  上面表示的结果来自于新的模型,而中间行表示原始模型,最下面的是原始数据中因变量的分布情况,可以看出新模型与原始模型的差异很小。
  (3)表三:混淆矩阵(从上面的蒙特卡罗模拟得到的混淆矩阵)
  左边的矩阵是代表运用新的比例预测模型在蒙特卡洛模拟下得到的,而右边的则是用一般的比例预测模型得到的。每个单元表示的意思是,比如:左边(i,j)单元,表示在新的模型下,因变量本来是y=i预测成y=j的概率,其他同理。
  (4)图一:关于混淆矩阵,近对角线和对角线上正确率的比较:
  统计数据如表三。这里,y1代表在新的模型下,混淆矩阵的近对角线的正确率情况,即每行近对角的正确率之和的情况,而y2表示的是原始模型下的结果。z1代表的是在新的模型下,混淆矩阵对角线正确率情况,z2表示原始模型下的。通过这四个量的比较,可以看出改进的比例预测模型,确实比原始的模型,正确率有所提升,而且也保证了近对角预测的正确率。再结合表二,我们发现改进的比例预测模型并在近似原始因变量分布的前提下提高了预测正确率。这种提高的方法对高维或者其他的应用还有待进一步研究。
  参考文献:
  [1]Wenxue Huang, Yuanyi Pan, and Jianhong Wu. Supervised discretization with GK- .Procedia Computer Science, 17:114-120, 2013.
  [2]Wenxue Huang, Yong Shi, and Xiaogang Wang. A nominal association matrix with feature selection for categorical data. arXiv preprint arXiv:1307.7841, 2013.
  [3]Chris J Lloyd. Statistical analysis of categorical data. Number 519.535 L5.1999.
  [4]Leo A Goodman and William H Kruskal. Measure of association for cross classifications.Pringer,1979.
  [5]George Fishman. Monte Carlo:concepts,algorithms, and application. Springer Science
其他文献
我国经济发展进入新常态,是习近平总书记在2014年经过合理分析国内外经济发展趋势,基于我国现有国情的基础上所作的重大战略判断.本文将从湖北省的阶段性特征和制约发展的历
高校目前的课堂教学考核方式不能够全面地反映学生的专业知识掌握情况和运用能力,也不能起到促进学生创新发展、激励教师课堂教学的作用。通过对考核方式改革的案例实践,提出推
百草枯是一种新型的中等毒性除草剂,目前人体中毒无特效解毒剂,口服3g即可导致系统性中毒,并引起肺及心、肝、肾等多器官衰竭,患者多死于多脏器功能衰竭或呼吸衰竭.2008年10
收益法是房地产估价中常用的方法之一,其主要运用于有收益的房地产的价值评估.由于收益法中三个关键指标收益年限、预期收益、还原利率的确定易受主观因素的影响,本文试从收
广场舞是农村群众重要的健身方式,但目前场地、设施的欠缺以及管理服务的缺失都阻碍了广场舞在农村的推广和发展。本文从基层公共文化服务体系视野下对衢州市农村广场舞开展
摘要:计量经济学是经管类学生必修的一个科目,是基础课程,也是学生修习难度较大的一门课程。计量经济学课程要求学生具备一定的经济学、统计学和数学基础,能够用数理思维分析经济问题,能够用统计办法解决相关问题。对学生的基础知识要求较高。同时也是教学难度较大的课程,在教学过程中,教师要保证学生对计量经济学的基本方法和理论能够理解甚至掌握,又要引导学生将所学的计量分析方法应用于实际的经济问题中,对教师的教学能
近日,有媒体报道称P53癌症检测早期项目,可以检出肝癌、乳腺癌等十几种癌症的发生概率。昨天,专家表示,该项目只能发现中晚期癌症,且已有漏诊迹象。专家表示:如果单靠一种抽
目的:探讨负压穿刺术在小儿头皮静脉输液中的应用.方法:将2000例门诊输液患儿随机分为观察组和对照组各1000例.对照组常规穿刺,常规法固定针头;观察组采用负压穿刺,穿刺成功
目的对抗-A(B)IgG亚类与新生儿ABO溶血病之间的关系进行分析探讨。方法随机抽取在2010年1月-2012年5月间我院收治的发生新生儿ABO溶血病的孕妇34例和同期健康体检未婚女性血
期刊
核心提示:对于肿瘤患者来说,夏季气温高、湿度大,肿瘤细胞容易重新活跃,复发转移的可能性加大。专家表示,一般来说,夏季肿瘤病人应特别注意以下几点:合理饮食,清淡为主夏季肿