论文部分内容阅读
摘要:文章本基于长三角制造业企业的大数据,构建了一个多指标、全方位反映制造业发展的制造业指数,对该指数和制造业发展进行了拟合,发现拟合效果良好。利用该指数,文章预测了长三角制造业的发展态势,并提出了提高大数据使用效率的对策建议。
关键词:制造业; 企业大数据; 制造业指数
一、 文献评述
近年来,国内外对制造业大数据的研究主要聚焦于三个方面。一是关于制造业大数据及生产要素效率的研究。如魏浩的研究表明,对北京市企业而言,中间品进口、进口贸易和中间品贸易可以有效促进去偶尔全要素生产率、出口企业全要素生产率、轻工业和混合工业企业的全要素生产率水平。Serti和Tomasi的研究表明,从技术变革和投入来看,从低成本的国家进口能有效降低企业的生产投入成本,而从密集研发型的国家进口则能有效提升投入的质量。二是关于制造业大数据的预测研究。如李敏波等使用LASSO方法的多任务学习,运用轮胎的销售大数据,从销售数据分析和宏观数据趋势两个层面对轮胎销售进行了预测,赵骞等对高端装备制造业的用电需求趋势做了预测分析,诸文兵运用组合预测模型,对体育用品制造产品的销售收入做了预测。三是对于大数据的行业应用研究。如楚东晓探讨了大数据在工业设计领域的应用,Mathieu Alemany Oliver对大数据在市场调研应用中的伦理问题进行了研究;张洁等提出了大数据驱动的纺织智能制造平台体系架构。
从研究方法来看,对大数据研究主要采用的是时间序列分析和回归分析的方法,并在趋势预测中得到了广泛应用。其中,时间序列分析主要分为数据采集、时间序列分析、趋势预测和模型构建四个步骤,通过采集过去若干年的制造业大数据,结合制造业的行业经营特点,在设定制造业的长期发展趋势为整体增长且具有季节性规律的基础上,基于制造业的历史数据,通过数据拟合来计算长期发展趋势和季节性规律的具体值,并以加法或乘法模式来进行制造业的发展趋势预测。
加法模式可以公式列示为:y=Σmj=1wjxj。y是被评价对象的综合评价值,wj是第j个评价指标相应的权重系数,xj是第j个指标值(已经过相应的数据预处理),这种方法适用于各指标相对独立的情况。
乘法模式可以公式列示为:y=∏mj=1wjxj。这种方法适用于各评价指标间有较强关联的情况。
回归分析的方法也是通过采集过去若干年的历史数据,通过绘制散点图对变化趋势进行判断,选择合适的回归模型和计算方法来估计模型参数,通过相关系数、方差(或标准差)及显著性指标等来判断、修正模型,最后进行预测分析的方法。回归模型主要包括一元线性回归、一元非线性回归(包括指数模型、对数模型和幂模型等)、多元线性回归。以公式列示:
一元线性回归:y*=a bx(a、b为回归系数,x为时间,y*为预测值)
不同于已有研究,本文的数据全部来自于微观层面,取自于2012年1月~2018年6月的长三角区域部分制造业企业的经营数据,再结合了统计、发改、财政、税收、经信等部门公开发布的制造业数据。研究方法以制造业指标体系构建为基础,以时间序列和加法分析为计算工具,以指数形式反映制造业发展变化。在此基础上,结合各指标的预测变动情况,提出相应建议。
二、 研究框架
1. 计量方程。研究过程中,对分项指标的选取充分借鉴了前人研究和统计部门已有的成熟指标,并遵循了以下三个原则。
一是协调性原则。指标的选取要能体现制造业企业的经营数据与行业整体发展的协调性,一方面,企业大数据的汇集要同步反映制造业的整体发展情况;另一方面,企业大数据还需在一定程度上先行反映制造业未来一段时间的发展趋势,提前发现制造业发展中可能存在的不利因素,从而有利于决策者采取针对性的扶持对策。
二是充分性原则。指标的选取需要充分、完整地反映制造业的发展和运行情况,一方面,在指标选取过程中,除了充分借鉴前人研究中的常用指标外,还向部分代表性企业、财政、税务、发改、统计、经信等部门和部分专家学者充分征求意见,使得入选的指标尽可能地反映制造业的发展情况;另一方面,随着经济运行和制造业发展的不断变化,还需预留一定的指标修改和完善空间,使得指标能更好地贴合、反映制造业的实际发展情况。
三是敏感性原则。指标的选取应对制造业的发展变化具有较高的敏感性,能灵敏、快速地反映制造业发展中的细微变化,由此,提高大数据对制造业未来发展的预测精度。
根据这三个原则,本研究所建立的长三角制造业指数,分规模、经济效益和发展等层面,用12个指标来反映制造业的总体态势。制造业规模方面,以全部销售入、出口销售额、固定资产进项税额、所有者权益和制造业职工人数来反映。制造业的经济效益方面,以单位资产效益、人均利润、单位资本收益、人均增值税和人均所得税来反映。制造业的发展方面,以新增企业数量和用电量来反映。为了避免数据不统一,所有指标均采取了百分比变化率,这样在计算和比较时就可以以统一的量度来进行了。
聚类后,各指标相对独立,可采用加法模式计算长三角制造业指数。建立如下的计量方程:
MI=Σmj=1wjxj
其中,MI為长三角制造业指数(Manufacture Index),xj是第j个指标值,wj是第j个评价指标相应的权重系数。设定长三角制造业的长期发展趋势为整体增长且具有季节性规律,则可以MI的数值大小来反映制造业的发展情况,并预测制造业在未来一段时间的发展趋势。
2. 数据说明。本研究的数据有两方面来源:一是企业经营数据,这部分数据量大面广,且均为微观层面,对经济形势发展有着良好的反映;二是其它部门发布的宏观数据,包括统计、财政、税收、发改、经信等部门,这些数据更多地是从行业层面来反映制造业的发展态势。 时间跨度上,本研究的数据采集涵盖了2012年1月到2018年6月,共计78个月的数据。样本量上,共涵盖了2 200家不同类型的制造业企业。研究立足于长三角区域,数据记录累计达420万条。
鉴于制造业大数据的采集量大面广,不可避免地會有一些数据的丢失、失真等情况。在实证研究之前,本研究还对数据作了比对和清洗,将企业经营数据中存在的部分数据丢失和失真作了纠正,以确保进入实证研究的数据做到全面、准确反映。
在数据清洗过程中,主要是剔除在连续年份中,纳税数据不连续出现的制造业企业。如在时间跨度中,某各企业的纳税数据存在缺失,则将该企业从数据样本中剔除。该清洗方法,保证了制造业企业样本量的连续性和可比性。
在数据比对过程中,主要是对不合理的数据进行修复。如,针对企业的纳税数据在月份间有缺失、空白、异常跳跃等情况,采用插值填补等方法进行修复。通过数据比对,有效降低了不合理数据对后续分析所造成的影响。
三、 实证分析
1. 长三角制造业指数计算。本研究从微观和宏观入手,对制造业进行实证研究。通过提取公共因子,计算得到12个指标纯客观的权重,再采用加法模式,汇总得到长三角制造业指数,这一指数的数值,以100为基值,变动率即表示了变动程度。
经过因子分析,KMO值=0.698,表明结果较好。Bartlett值=1 053.565,P值小于0.001,表明因子分析是适用的。分析显示,变量共同度都很高,这说明,因子能够提取变量中的大部分信息。
特征值显示,有4个因子
关键词:制造业; 企业大数据; 制造业指数
一、 文献评述
近年来,国内外对制造业大数据的研究主要聚焦于三个方面。一是关于制造业大数据及生产要素效率的研究。如魏浩的研究表明,对北京市企业而言,中间品进口、进口贸易和中间品贸易可以有效促进去偶尔全要素生产率、出口企业全要素生产率、轻工业和混合工业企业的全要素生产率水平。Serti和Tomasi的研究表明,从技术变革和投入来看,从低成本的国家进口能有效降低企业的生产投入成本,而从密集研发型的国家进口则能有效提升投入的质量。二是关于制造业大数据的预测研究。如李敏波等使用LASSO方法的多任务学习,运用轮胎的销售大数据,从销售数据分析和宏观数据趋势两个层面对轮胎销售进行了预测,赵骞等对高端装备制造业的用电需求趋势做了预测分析,诸文兵运用组合预测模型,对体育用品制造产品的销售收入做了预测。三是对于大数据的行业应用研究。如楚东晓探讨了大数据在工业设计领域的应用,Mathieu Alemany Oliver对大数据在市场调研应用中的伦理问题进行了研究;张洁等提出了大数据驱动的纺织智能制造平台体系架构。
从研究方法来看,对大数据研究主要采用的是时间序列分析和回归分析的方法,并在趋势预测中得到了广泛应用。其中,时间序列分析主要分为数据采集、时间序列分析、趋势预测和模型构建四个步骤,通过采集过去若干年的制造业大数据,结合制造业的行业经营特点,在设定制造业的长期发展趋势为整体增长且具有季节性规律的基础上,基于制造业的历史数据,通过数据拟合来计算长期发展趋势和季节性规律的具体值,并以加法或乘法模式来进行制造业的发展趋势预测。
加法模式可以公式列示为:y=Σmj=1wjxj。y是被评价对象的综合评价值,wj是第j个评价指标相应的权重系数,xj是第j个指标值(已经过相应的数据预处理),这种方法适用于各指标相对独立的情况。
乘法模式可以公式列示为:y=∏mj=1wjxj。这种方法适用于各评价指标间有较强关联的情况。
回归分析的方法也是通过采集过去若干年的历史数据,通过绘制散点图对变化趋势进行判断,选择合适的回归模型和计算方法来估计模型参数,通过相关系数、方差(或标准差)及显著性指标等来判断、修正模型,最后进行预测分析的方法。回归模型主要包括一元线性回归、一元非线性回归(包括指数模型、对数模型和幂模型等)、多元线性回归。以公式列示:
一元线性回归:y*=a bx(a、b为回归系数,x为时间,y*为预测值)
不同于已有研究,本文的数据全部来自于微观层面,取自于2012年1月~2018年6月的长三角区域部分制造业企业的经营数据,再结合了统计、发改、财政、税收、经信等部门公开发布的制造业数据。研究方法以制造业指标体系构建为基础,以时间序列和加法分析为计算工具,以指数形式反映制造业发展变化。在此基础上,结合各指标的预测变动情况,提出相应建议。
二、 研究框架
1. 计量方程。研究过程中,对分项指标的选取充分借鉴了前人研究和统计部门已有的成熟指标,并遵循了以下三个原则。
一是协调性原则。指标的选取要能体现制造业企业的经营数据与行业整体发展的协调性,一方面,企业大数据的汇集要同步反映制造业的整体发展情况;另一方面,企业大数据还需在一定程度上先行反映制造业未来一段时间的发展趋势,提前发现制造业发展中可能存在的不利因素,从而有利于决策者采取针对性的扶持对策。
二是充分性原则。指标的选取需要充分、完整地反映制造业的发展和运行情况,一方面,在指标选取过程中,除了充分借鉴前人研究中的常用指标外,还向部分代表性企业、财政、税务、发改、统计、经信等部门和部分专家学者充分征求意见,使得入选的指标尽可能地反映制造业的发展情况;另一方面,随着经济运行和制造业发展的不断变化,还需预留一定的指标修改和完善空间,使得指标能更好地贴合、反映制造业的实际发展情况。
三是敏感性原则。指标的选取应对制造业的发展变化具有较高的敏感性,能灵敏、快速地反映制造业发展中的细微变化,由此,提高大数据对制造业未来发展的预测精度。
根据这三个原则,本研究所建立的长三角制造业指数,分规模、经济效益和发展等层面,用12个指标来反映制造业的总体态势。制造业规模方面,以全部销售入、出口销售额、固定资产进项税额、所有者权益和制造业职工人数来反映。制造业的经济效益方面,以单位资产效益、人均利润、单位资本收益、人均增值税和人均所得税来反映。制造业的发展方面,以新增企业数量和用电量来反映。为了避免数据不统一,所有指标均采取了百分比变化率,这样在计算和比较时就可以以统一的量度来进行了。
聚类后,各指标相对独立,可采用加法模式计算长三角制造业指数。建立如下的计量方程:
MI=Σmj=1wjxj
其中,MI為长三角制造业指数(Manufacture Index),xj是第j个指标值,wj是第j个评价指标相应的权重系数。设定长三角制造业的长期发展趋势为整体增长且具有季节性规律,则可以MI的数值大小来反映制造业的发展情况,并预测制造业在未来一段时间的发展趋势。
2. 数据说明。本研究的数据有两方面来源:一是企业经营数据,这部分数据量大面广,且均为微观层面,对经济形势发展有着良好的反映;二是其它部门发布的宏观数据,包括统计、财政、税收、发改、经信等部门,这些数据更多地是从行业层面来反映制造业的发展态势。 时间跨度上,本研究的数据采集涵盖了2012年1月到2018年6月,共计78个月的数据。样本量上,共涵盖了2 200家不同类型的制造业企业。研究立足于长三角区域,数据记录累计达420万条。
鉴于制造业大数据的采集量大面广,不可避免地會有一些数据的丢失、失真等情况。在实证研究之前,本研究还对数据作了比对和清洗,将企业经营数据中存在的部分数据丢失和失真作了纠正,以确保进入实证研究的数据做到全面、准确反映。
在数据清洗过程中,主要是剔除在连续年份中,纳税数据不连续出现的制造业企业。如在时间跨度中,某各企业的纳税数据存在缺失,则将该企业从数据样本中剔除。该清洗方法,保证了制造业企业样本量的连续性和可比性。
在数据比对过程中,主要是对不合理的数据进行修复。如,针对企业的纳税数据在月份间有缺失、空白、异常跳跃等情况,采用插值填补等方法进行修复。通过数据比对,有效降低了不合理数据对后续分析所造成的影响。
三、 实证分析
1. 长三角制造业指数计算。本研究从微观和宏观入手,对制造业进行实证研究。通过提取公共因子,计算得到12个指标纯客观的权重,再采用加法模式,汇总得到长三角制造业指数,这一指数的数值,以100为基值,变动率即表示了变动程度。
经过因子分析,KMO值=0.698,表明结果较好。Bartlett值=1 053.565,P值小于0.001,表明因子分析是适用的。分析显示,变量共同度都很高,这说明,因子能够提取变量中的大部分信息。
特征值显示,有4个因子