论文部分内容阅读
摘要:大数据征信作为一种新的征信方式在金融领域的应用越来越广,对完善征信体系的推动作用开始显现。文章结合我国大数据征信的发展情况,从个人征信视角对大数据征信的概念、价值与意义、发展应用、面临的主要挑战等问题进行了初步探讨,对完善与发展我国大数据征信进行了初步思考,提出了相应的对策与建议。
关键词:大数据;大数据征信;价值;挑战
一、 大数据与大数据征信
1. 什么是大数据。在互联网已经成为一种普遍的生活方式的今天,我们已经迈入大数据时代。“大数据正在改变我们的生活以及理解世界的方式,成为发明和新服务的源泉”。什么是大数据?仁者见仁,智者见智。维基百科将大数据定义为“一种广义的数据集,因其体量巨大、复杂,传统数据处理方式不足以处理”。高德纳咨询公司(Gartner Group)认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”;国内有学者将大数据定义为“是指伴随着可作为处理对象的数据外延不断扩大,依靠物联网、云计算等新的数据搜集、传输和处理模式的一种新型数据挖掘和应用模式”;国务院印发的《促进大数据发展行动纲要》将大数据界定为“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。多种多样的定义为我们从不同视角理解大数据提供了有益参考,但无论如何界定,“多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大。换言之,现在,数据可以更快获取,有着更大的广度和深度,并且包含了以前做不到的新的观测和度量类型”。由此,我们可以得出大数据的几个基础特征:数据规模庞大、具有多样性、较高应用价值和较高的处理速度(也就是通常所说的4V特征,即Volume、Variety、Velocity、Value)。这些特征有助于我们更直观的理解什么是大数据,有助于我们更好地发现日益增长的数据中隐藏的价值,满足人们的现实需求。
2. 什么是大数据征信。随着大数据技术在金融领域的广泛应用,大数据征信受到越来越多的重视。大数据征信主要通过对海量的、分散的、多样化的、具有一定价值的数据进行快速的收集、分析、挖掘,运用机器学习等模型算法多维度刻画信用主体的违约率和信用状况。大数据征信从其本质上来看是将大数据技术应用到征信活动中,突出强调的是处理数据的数量大、刻画信用的维度广、信用状况的动态呈现、交互性等特点,这些活动并未超出《征信业管理条例》中所界定的征信业务范围,本质上仍然是对信息的采集、整理、保存、加工和公布,只不过是以一种全新的方式、全新的视角来进行而已。
3. 大数据征信与传统征信。与传统征信相比,大数据征信呈现出与当前互联网快速发展相契合的诸多时代特点和印记。
(1)数据来源广泛。大数据征信的数据来源既包括交易、消费、支付等交易数据,也包括社交活动、网络行为、地理位置等交互数据,还包括通过可穿戴设备、RFID设备、视频监控设备等获取的传感数据。这些数据主要是通过互联网获取,可称之为网络大数据。“网络大数据有许多不同于自然科学数据的特点,包括多源异构、交互性、时效性、社会性、突发性和高噪声等,不断但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生”。与传统征信仅依靠信贷记录、公共信用信息等数据刻画信用主体信用状况不同,大数据征信基于网络大数据,通过数据挖掘,从多个维度刻画、描述信用主体的违约状况、人际关系等,丰富了传统信用评价的维度和深度。
(2)市场定位清晰。大数据征信作为传统征信的补充,主要针对的是央行征信系统无法覆盖的没有信用记录的人群。根据央行发布的《中国征信业发展报告(2003-2013)》,截至2013年底,国内没有信用记录的人群达3.2亿人,占全国人口的23.7%;央行征信系统收录的8.39亿自然人中有5.18亿人没有信贷记录,这部分未被覆盖的人群也有融资需求。借助于互联网这个大平台,利用大数据技术可以较为快速、高效刻画这部分人群的信用状况,市场潜力巨大。
(3)应用场景多样化。与传统征信运用具有强相关性的信贷数据刻画信用主体的信用状况不同,大数据征信基于大数据技术,应用机器学习等模型,对海量的弱相关性的互联网大数据进行采集、清洗、匹配、整合和挖掘,转换成信用数据,使得信用评估的效率和准确性得到一定程度的提升。基于大数据征信的这些优势和特点,沉淀了大量用户的电商、社交媒体、P2P等互联网公司纷纷涉足大数据征信,运用数据挖掘等技术来实现快速的身份识别、风险识别、反欺诈、精准营销、个性化服务等,而这些多样化的应用场景则进一步丰富了大数据征信的内容和结构。
四是技术高度复杂。大数据征信的应用是以互联网的快速发展与普及为基础的,需要在技术及研发上持续不断的投入。技术上看,由于大数据征信的数据源较为复杂,需要处理的变量远超传统征信模式,开发一套针对用户的信用评价系统通常需要经过数据收集、数据清洗、关联分析等环节,再由一套复杂的模型算法最终得出用户的信用报告或信用分,需要从事大数据征信的企业在大数据收集、分析、挖掘等技术上持续不断的投入。理论上看,由于互联网数据的多源异构性,发现、理解进而熟练运用互联网数据背后的社会学、心理学、经济学的机理以及互联网信息涌现的内在机制,使之服务于对信用主体的信用刻画中,确保信用刻画的准确性,还需要充分吸收、利用社会学、心理学、经济学等学科的相关研究成果,又进一步加剧了大数据征信的复杂性。
此外,大数据征信不能仅仅强调数据的大,更重要的是强调数据的准,数据维度反映信用主体信用状况的关联度要强。由于互联网时代数据产生速度很快,很多数据都需要及时更新才能保证准确性,因此大数据征信要求对实时的数据进行实时的处理,才能保证信用结果的准确性。根据中国互联网信息中心统计,截至2014年12月,中国网民达6.49亿,互联网普及率达47.9%。如此巨量的互联网用户产生的数据也是巨量的,利用大数据技术对这些支离破碎的数据进行整合、分析、挖掘并最终开发出具有商业价值的产品需要持续的研发投入、技术投入、资金投入和管理投入,门槛较高。 3. 数据的所有权、控制权、收益权问题。由美国倡导并实践的数据开放运动已经持续了一段时间,在全球范围内引起了广泛共鸣。而英国在此基础上更进一步,提出了“数据权”的概念。数据承载着信息,信息蕴含着价值。数据权概念的提出意味着数据价值的归属需要明确界定,由此引申出数据的所有权、控制权和收益权问题。由于大数据征信具有数据来源的多源性、技术处理的复杂性以及应用场景的广泛性等特点,在中国不完善的征信体系及特定的法律文化背景下,数据的所有权、控制权和收益权问题也尤为复杂。这里需要考虑的问题有:不同途径获取的数据所有权归谁?二次加工、三次加工的数据所有权归谁?涉及个人信息的数据个人是否有控制权?如何实现控制权?数据交易过程中,个人如何实现数据的收益权?这些问题仍需要我们在现有法律及政策框架下作进一步的讨论和研究。
4. 政策及监管的不确定性问题。大数据征信作为传统征信的补充,受《全国人民代表大会常务委员会关于加强网络信息保护的决定》、《征信业管理条例》、《征信机构管理办法》等法律法规的约束。但作为一种新兴的征信形式,大数据征信涉及问题的复杂程度已经超出了这些法律法规规制的范围,特别是在数据的采集、加工、使用和交易方面,多数大数据征信机构都在一定程度上存在着违法采集个人信息的行为,只不过是以一种不平等或隐蔽的方式来规避法律管制,如将获取个人信息与提供服务捆绑在一起,利用网民个人信息保护意识淡薄等弱点,使用复杂的免责条款来规避法律责任,使用流氓软件非法获取个人信息,利用技术优势非法获取个人信息,非法交易个人信息等。这些问题的出现一方面是由于网络用户个人信息的自我保护意识和手段的不足,另一方面也反映出现行的立法及监管措施的缺乏。随着隐私观念深入人心及互联网活动对个人生活的全面深入,这些问题都将倒逼监管层出台更多措施来保护个人权利、规范行业发展,特别是近期央行拟发放个人征信牌照,即是对此做出的积极回应。
五、 结论
大数据征信作为一种新的征信技术面临诸多挑战,同时也面临着难得的发展机遇,特别是在国家政策层面加大对大数据产业的支持、积极推进互联网与金融业深度融合的背景下,大数据征信将大有可为。与国外业已形成的较为完善的征信体系相比,我国征信体系建设还有很长的路要走。在互联网和大数据时代,创新是主线,作为在征信领域的本土化创新,中国的大数据征信完全可以实现弯道超车,引领征信发展的新潮流。与此同时,我们也应清醒的认识到,在当前中国经济社会转型的关键期,发展大数据征信需要政府加强引导与适度监管,从构建和完善适应大数据征信的监管法律制度入手,做好金融信用信息基础数据库等金融基础设施建设,加强基础理论研究,为大数据征信产品开发和服务创新创造良好条件,营造良好信用环境,真正使大数据征信成为服务社会经济发展的助力器。
参考文献:
[1] (英)维克托·迈尔—舍恩伯格,肯尼思·库克耶,著.盛杨燕,周涛,译.大数据时代[M].杭州:浙江人民出版社,2013.
[2] 中国电子技术标准化研究院.大数据标准化白皮书,2014.
[3] 王忠.大数据时代个人数据隐私规制[M].北京:社会科学文献出版社,2014
[4] 美国总统行政办公室.大数据:抓住机遇、保存价值,2014-5.
[5] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,(9).
作者简介:孔德超(1979-),男,汉族,河南省信阳市人,中国人民大学财政金融学院博士后,研究方向为征信理论与实务、大数据征信。
收稿日期:2016-02-15。
关键词:大数据;大数据征信;价值;挑战
一、 大数据与大数据征信
1. 什么是大数据。在互联网已经成为一种普遍的生活方式的今天,我们已经迈入大数据时代。“大数据正在改变我们的生活以及理解世界的方式,成为发明和新服务的源泉”。什么是大数据?仁者见仁,智者见智。维基百科将大数据定义为“一种广义的数据集,因其体量巨大、复杂,传统数据处理方式不足以处理”。高德纳咨询公司(Gartner Group)认为“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产”;国内有学者将大数据定义为“是指伴随着可作为处理对象的数据外延不断扩大,依靠物联网、云计算等新的数据搜集、传输和处理模式的一种新型数据挖掘和应用模式”;国务院印发的《促进大数据发展行动纲要》将大数据界定为“大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态”。多种多样的定义为我们从不同视角理解大数据提供了有益参考,但无论如何界定,“多数定义都反映了那种不断增长的捕捉、聚合与处理数据的技术能力,而这个数据集在数量、速率与种类上持续扩大。换言之,现在,数据可以更快获取,有着更大的广度和深度,并且包含了以前做不到的新的观测和度量类型”。由此,我们可以得出大数据的几个基础特征:数据规模庞大、具有多样性、较高应用价值和较高的处理速度(也就是通常所说的4V特征,即Volume、Variety、Velocity、Value)。这些特征有助于我们更直观的理解什么是大数据,有助于我们更好地发现日益增长的数据中隐藏的价值,满足人们的现实需求。
2. 什么是大数据征信。随着大数据技术在金融领域的广泛应用,大数据征信受到越来越多的重视。大数据征信主要通过对海量的、分散的、多样化的、具有一定价值的数据进行快速的收集、分析、挖掘,运用机器学习等模型算法多维度刻画信用主体的违约率和信用状况。大数据征信从其本质上来看是将大数据技术应用到征信活动中,突出强调的是处理数据的数量大、刻画信用的维度广、信用状况的动态呈现、交互性等特点,这些活动并未超出《征信业管理条例》中所界定的征信业务范围,本质上仍然是对信息的采集、整理、保存、加工和公布,只不过是以一种全新的方式、全新的视角来进行而已。
3. 大数据征信与传统征信。与传统征信相比,大数据征信呈现出与当前互联网快速发展相契合的诸多时代特点和印记。
(1)数据来源广泛。大数据征信的数据来源既包括交易、消费、支付等交易数据,也包括社交活动、网络行为、地理位置等交互数据,还包括通过可穿戴设备、RFID设备、视频监控设备等获取的传感数据。这些数据主要是通过互联网获取,可称之为网络大数据。“网络大数据有许多不同于自然科学数据的特点,包括多源异构、交互性、时效性、社会性、突发性和高噪声等,不断但非结构化数据多,而且数据的实时性强,大量数据都是随机动态产生”。与传统征信仅依靠信贷记录、公共信用信息等数据刻画信用主体信用状况不同,大数据征信基于网络大数据,通过数据挖掘,从多个维度刻画、描述信用主体的违约状况、人际关系等,丰富了传统信用评价的维度和深度。
(2)市场定位清晰。大数据征信作为传统征信的补充,主要针对的是央行征信系统无法覆盖的没有信用记录的人群。根据央行发布的《中国征信业发展报告(2003-2013)》,截至2013年底,国内没有信用记录的人群达3.2亿人,占全国人口的23.7%;央行征信系统收录的8.39亿自然人中有5.18亿人没有信贷记录,这部分未被覆盖的人群也有融资需求。借助于互联网这个大平台,利用大数据技术可以较为快速、高效刻画这部分人群的信用状况,市场潜力巨大。
(3)应用场景多样化。与传统征信运用具有强相关性的信贷数据刻画信用主体的信用状况不同,大数据征信基于大数据技术,应用机器学习等模型,对海量的弱相关性的互联网大数据进行采集、清洗、匹配、整合和挖掘,转换成信用数据,使得信用评估的效率和准确性得到一定程度的提升。基于大数据征信的这些优势和特点,沉淀了大量用户的电商、社交媒体、P2P等互联网公司纷纷涉足大数据征信,运用数据挖掘等技术来实现快速的身份识别、风险识别、反欺诈、精准营销、个性化服务等,而这些多样化的应用场景则进一步丰富了大数据征信的内容和结构。
四是技术高度复杂。大数据征信的应用是以互联网的快速发展与普及为基础的,需要在技术及研发上持续不断的投入。技术上看,由于大数据征信的数据源较为复杂,需要处理的变量远超传统征信模式,开发一套针对用户的信用评价系统通常需要经过数据收集、数据清洗、关联分析等环节,再由一套复杂的模型算法最终得出用户的信用报告或信用分,需要从事大数据征信的企业在大数据收集、分析、挖掘等技术上持续不断的投入。理论上看,由于互联网数据的多源异构性,发现、理解进而熟练运用互联网数据背后的社会学、心理学、经济学的机理以及互联网信息涌现的内在机制,使之服务于对信用主体的信用刻画中,确保信用刻画的准确性,还需要充分吸收、利用社会学、心理学、经济学等学科的相关研究成果,又进一步加剧了大数据征信的复杂性。
此外,大数据征信不能仅仅强调数据的大,更重要的是强调数据的准,数据维度反映信用主体信用状况的关联度要强。由于互联网时代数据产生速度很快,很多数据都需要及时更新才能保证准确性,因此大数据征信要求对实时的数据进行实时的处理,才能保证信用结果的准确性。根据中国互联网信息中心统计,截至2014年12月,中国网民达6.49亿,互联网普及率达47.9%。如此巨量的互联网用户产生的数据也是巨量的,利用大数据技术对这些支离破碎的数据进行整合、分析、挖掘并最终开发出具有商业价值的产品需要持续的研发投入、技术投入、资金投入和管理投入,门槛较高。 3. 数据的所有权、控制权、收益权问题。由美国倡导并实践的数据开放运动已经持续了一段时间,在全球范围内引起了广泛共鸣。而英国在此基础上更进一步,提出了“数据权”的概念。数据承载着信息,信息蕴含着价值。数据权概念的提出意味着数据价值的归属需要明确界定,由此引申出数据的所有权、控制权和收益权问题。由于大数据征信具有数据来源的多源性、技术处理的复杂性以及应用场景的广泛性等特点,在中国不完善的征信体系及特定的法律文化背景下,数据的所有权、控制权和收益权问题也尤为复杂。这里需要考虑的问题有:不同途径获取的数据所有权归谁?二次加工、三次加工的数据所有权归谁?涉及个人信息的数据个人是否有控制权?如何实现控制权?数据交易过程中,个人如何实现数据的收益权?这些问题仍需要我们在现有法律及政策框架下作进一步的讨论和研究。
4. 政策及监管的不确定性问题。大数据征信作为传统征信的补充,受《全国人民代表大会常务委员会关于加强网络信息保护的决定》、《征信业管理条例》、《征信机构管理办法》等法律法规的约束。但作为一种新兴的征信形式,大数据征信涉及问题的复杂程度已经超出了这些法律法规规制的范围,特别是在数据的采集、加工、使用和交易方面,多数大数据征信机构都在一定程度上存在着违法采集个人信息的行为,只不过是以一种不平等或隐蔽的方式来规避法律管制,如将获取个人信息与提供服务捆绑在一起,利用网民个人信息保护意识淡薄等弱点,使用复杂的免责条款来规避法律责任,使用流氓软件非法获取个人信息,利用技术优势非法获取个人信息,非法交易个人信息等。这些问题的出现一方面是由于网络用户个人信息的自我保护意识和手段的不足,另一方面也反映出现行的立法及监管措施的缺乏。随着隐私观念深入人心及互联网活动对个人生活的全面深入,这些问题都将倒逼监管层出台更多措施来保护个人权利、规范行业发展,特别是近期央行拟发放个人征信牌照,即是对此做出的积极回应。
五、 结论
大数据征信作为一种新的征信技术面临诸多挑战,同时也面临着难得的发展机遇,特别是在国家政策层面加大对大数据产业的支持、积极推进互联网与金融业深度融合的背景下,大数据征信将大有可为。与国外业已形成的较为完善的征信体系相比,我国征信体系建设还有很长的路要走。在互联网和大数据时代,创新是主线,作为在征信领域的本土化创新,中国的大数据征信完全可以实现弯道超车,引领征信发展的新潮流。与此同时,我们也应清醒的认识到,在当前中国经济社会转型的关键期,发展大数据征信需要政府加强引导与适度监管,从构建和完善适应大数据征信的监管法律制度入手,做好金融信用信息基础数据库等金融基础设施建设,加强基础理论研究,为大数据征信产品开发和服务创新创造良好条件,营造良好信用环境,真正使大数据征信成为服务社会经济发展的助力器。
参考文献:
[1] (英)维克托·迈尔—舍恩伯格,肯尼思·库克耶,著.盛杨燕,周涛,译.大数据时代[M].杭州:浙江人民出版社,2013.
[2] 中国电子技术标准化研究院.大数据标准化白皮书,2014.
[3] 王忠.大数据时代个人数据隐私规制[M].北京:社会科学文献出版社,2014
[4] 美国总统行政办公室.大数据:抓住机遇、保存价值,2014-5.
[5] 李国杰.大数据研究的科学价值[J].中国计算机学会通讯,2012,(9).
作者简介:孔德超(1979-),男,汉族,河南省信阳市人,中国人民大学财政金融学院博士后,研究方向为征信理论与实务、大数据征信。
收稿日期:2016-02-15。