论文部分内容阅读
在大数据时代,我们不仅拥有了更多更全的数据,而且对数据本身的理解也发生了革命性的变化,这一变化颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。
允许不精确
过去100多年里,统计学家一般是采用抽样分析,用少量数据说明问题。因为那时还不具备采集、储存和处理海量数据的手段,是“小数据”时代。对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,一点细微的错误就有可能影响整个结果的准确性。
然而到了大数据时代,随着数据量的大幅增加,一些错误的数据也会混进数据库,这是无法避免的,如果我们还要求所有数据都没有瑕疵,这就行不通了。假设你要测量一个葡萄园的温度,如果整个葡萄园只有一个温度测量仪,那你就必须确保这个测试仪是精确的而且能够一直工作。但是,如果每棵葡萄树就有一个测量仪,我们就没办法保证每个测量数字都是精确的,有些测试的数据可能会是错误的。不过没关系,众多的读数合起来就可以提供一个更加准确的结果,不但能抵消掉错误数据造成的影响,还能提供更多的额外价值。
其实,在日常生活中,我们已经意识到了这种差别。例如,一个小商店要把收银台里的每分钱都数清楚,但是我们不会、也不可能用“分”这个单位去精确计算国民生产总值。在这个大数据时代,追求精确度已经变得不可行,甚至不受欢迎了。数据纷繁多样,优劣掺杂,分布在全球多个服务器上,面对这种情况,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
不要问为什么
拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握大体的发展方向即可。这不仅表现在精确度上,更表现在对因果关系的理解上。寻找因果关系是人类长久以来的习惯,我们常常喜欢问“事情为什么这样,而不是那样?”以便对症下药。但到了大数据时代,我们只需要寻找事物之间的关系就可以了,追求因果关系耗费太大,用途却不大。如果A和B经常一起发生,我们只需要注意到如果B发生了,就可以预测A也发生了,而不必考虑事情发生的原因。比如,你要经过一条经常堵车的高速公路,我能告诉你这条路什么时候会堵;当你堵在路上时,我会告诉你什么时候会通;但我不会告诉你为什么会这样,因为我也不知道。
以全球最大的购书网站亚马逊为例,它们储存了大量读者购书的数据,比如说,客户只关注什么书,关注了多久却没有购买,又购买了什么书,等等。然后通过大数据的分析,为客户推荐新书。亚马逊的这套计算机推荐系统只是梳理出了有趣的相关关系,并不知道背后的原因,却使其销售量大幅上涨。
相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么能够治疗的原因就没有这种治疗方法本身来得重要。
允许不精确
过去100多年里,统计学家一般是采用抽样分析,用少量数据说明问题。因为那时还不具备采集、储存和处理海量数据的手段,是“小数据”时代。对“小数据”而言,最基本、最重要的要求就是减少错误,保证质量。因为收集的信息量比较少,一点细微的错误就有可能影响整个结果的准确性。
然而到了大数据时代,随着数据量的大幅增加,一些错误的数据也会混进数据库,这是无法避免的,如果我们还要求所有数据都没有瑕疵,这就行不通了。假设你要测量一个葡萄园的温度,如果整个葡萄园只有一个温度测量仪,那你就必须确保这个测试仪是精确的而且能够一直工作。但是,如果每棵葡萄树就有一个测量仪,我们就没办法保证每个测量数字都是精确的,有些测试的数据可能会是错误的。不过没关系,众多的读数合起来就可以提供一个更加准确的结果,不但能抵消掉错误数据造成的影响,还能提供更多的额外价值。
其实,在日常生活中,我们已经意识到了这种差别。例如,一个小商店要把收银台里的每分钱都数清楚,但是我们不会、也不可能用“分”这个单位去精确计算国民生产总值。在这个大数据时代,追求精确度已经变得不可行,甚至不受欢迎了。数据纷繁多样,优劣掺杂,分布在全球多个服务器上,面对这种情况,适当忽略微观层面上的精确度,会让我们在宏观层面拥有更好的洞察力。
不要问为什么
拥有了大数据,我们不再需要对一个现象刨根问底,只要掌握大体的发展方向即可。这不仅表现在精确度上,更表现在对因果关系的理解上。寻找因果关系是人类长久以来的习惯,我们常常喜欢问“事情为什么这样,而不是那样?”以便对症下药。但到了大数据时代,我们只需要寻找事物之间的关系就可以了,追求因果关系耗费太大,用途却不大。如果A和B经常一起发生,我们只需要注意到如果B发生了,就可以预测A也发生了,而不必考虑事情发生的原因。比如,你要经过一条经常堵车的高速公路,我能告诉你这条路什么时候会堵;当你堵在路上时,我会告诉你什么时候会通;但我不会告诉你为什么会这样,因为我也不知道。
以全球最大的购书网站亚马逊为例,它们储存了大量读者购书的数据,比如说,客户只关注什么书,关注了多久却没有购买,又购买了什么书,等等。然后通过大数据的分析,为客户推荐新书。亚马逊的这套计算机推荐系统只是梳理出了有趣的相关关系,并不知道背后的原因,却使其销售量大幅上涨。
相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症,那么能够治疗的原因就没有这种治疗方法本身来得重要。