大数据时代

大数据时代

最近花了一点时间读了一本叫《大数据时代》的书。作者是美国的维克托•迈尔•舍恩伯格(Viktor Mayer-Schönberger)豆瓣评分7.9。大数据这个概念也不是最近几年才提出来的,但却是最近几年才火起来的。一方面源于各大网络媒体的炒作,一方面源于其实用性越发凸显,并真真切切的解决了这个星球上的很多棘手问题。火的一个特征就是有很多著作、文章以及出版物在讨论这个话题,《大数据时代》就是其中之一。其翻译者是周涛。介绍说是个年轻的家伙,但从文笔上看却颇为老练。给出的注释也相对丰富。如果要用一句话来评价这本书(以及它的翻译质量)的话,那就是:我没有把时间浪费在阅读那些文字上。

这本书介绍了大数据时代给人们带来的巨大变革。进入了这个新的时代后,大家的生活方式变了,工作方式变了,甚至于思维方式也变了。它给我们带来的,已经不再是“多几个样本”了。当数据多(大)到一定程度后,量变转化成了质变。这里的“大”,不单单指数据量的增加,还暗示着处理方式的变化。当我们掌握了新的处理这些“样本”的方法后,一扇通往一个崭新世界的大门,打开了。

“样本=总体”

回看“小数据”时代,取得数据的成本高、周期长,使得要获得很多的数据进行分析在通常情况下变的不太可能。在那个时代,“采样”是最常用的手段。从大量的真实数据中,(随机)选取一小部分进行汇总并分析其相互联系。试图用一个“公式”来解释所有样本之间的内在联系,从而期望以此推算出其未来的走向。

数学里的“曲线拟合”就是它的典型代表。我们试图通过几个点(也可能是几百个点)来总结出一个数学公式。使它可以在X等于特定值的时候,令其Y等于样本中的某个数值。

当进入“大数据”时代后,获取全部样本的成本不再高不可攀。人们也乐于保存一切可以保存的东西(指不定下次就可以用上呢)。大量的数据使得我们得以以不同的方式去分析它们,传统的那种小数据量、高复杂度的分析方式不再适用。反而,随着数据量的急剧增大,大数据量、算法简单的分析方式开始显现出它的优势。大数据时代的一个特点就是在使用大量数据的时候,也要求我们使用新的分析方法。

不再执迷于精确,要拥抱混杂

执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下的95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。

不可否认,精确性在很多场合非常重要。我不能接受我的银行账户余额不精确。我相信神十的发射时间的选定也不能依赖不精确的计算。但人类的发展、社会的形态等等都是天生的复杂(或者叫混杂)的。当我需要利用大数据信息来预测一种“趋势”的时候,或者当我需要知道当前大概有多少人喜欢这篇文章(是100万个,还是1千个)的时候,我就不再追求精确,我允许数据中有一点点的差错,有些许“噪音”。而这些差错或者噪音又或许正好为这些数据的统计提供了另一方面的数据。

过份追求精确会使整个数据分析和利用的过程变的异常复杂。复杂的过程又会导致时间的变长(和结果的不精确)。当你一个月后再拿到“当前”的流行趋势报告时,我相信它已经不再拥有最高的价值。尽早的提供分析结果,也是大数据时代的要求。大数据的运用,是为给当下的决策提供参考,当“数据过期”时,决策也就变的不靠谱。想象一下,如果人口普查可以在一个月而不是数年内完成,会对执政决策起到多大的帮助。当分析数据所用的时间缩短几个数量级后,将会对整个社会产生质的变化。

知道“是什么”就够了,没必要非要搞明白“为什么”

“为什么”大家都想问,也都喜欢问(尤其是小孩子)。这是我们的天性,也是我们求知欲的体现。但一切都追求“为什么”,耗时耗力而且还不那么现实。毕竟,不是什么时候我们都能摸清个“为什么”的。

大数据时代,模糊了精确性,加入了混杂性,这也使得找出“为什么”变的更加困难。但如果我们能够快速简单的知道“是什么”,如果“是什么”可以提供我们下一步行动的指导,我们又为啥非要知道“为什么”呢?

大数据时代追求的是相关性,而不是因果性。通过观察某物(某事)的相关物,我们就可以预测该物(该事)的趋势或者变化。众多电商网站的购物推荐,基本上就是基于相关性的分析。没人知道为什么我会买一个红色的球拍。但通过相关性后,系统就可以知道别人买了球拍后大多都会捎带买点球。于是,球,就出现在了网页的推荐栏里供我挑选。书中提到,亚马逊的推荐引擎,包含了数十种常用算法,数千条行业规则和针对用户意图的场景预测模块。这些都是相关性分析的起点。现在,亚马逊总销售额的三分之一都来自于它为用户推荐的商品。

PS 从一个程序猿的角度来看,探究某个事情的原因是痛苦的。但写出if (condition == A) then (do B) else (do C)是非常简单的。

尽可能量化一切数据,并挖掘、挖掘、再挖掘

正如书中所说,世界上95%的数据都是非结构化的。在大数据时代,它们必须被加以利用。新的数据库(数据结构)的发明就是为了应对这种情况。我们需要尽我们最大能力去量化一切数据,将它们保存起来。挖掘、挖掘、再挖掘,利用、利用、再利用。

绝大多数的情况是,数据的真正价值,往往出现在它的二次利用上。往往在你为了某个目的搜集数据时,对这些数据的用法是已经确定了的。但往往过了段时间,它们其他方面的价值又慢慢的显现了出来。二次开发并利用这些数据会升华它们的固有价值。也会让“利益最大化”。

这也相应的提出了另外一个要求,在第一次搜集数据的时候,要尽其可能搜集“一切”数据(量化一切数据)。样本的方方面面都可能成为二次利用的对象。当前的科技使得大量搜集和长期保存数据不再是高成本和不可能的事情。搜集和保存的成本很低,但二次利用所带来的利益却要高的多。正如书中提到:

数据的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山一角,而绝大部分则隐藏在表面之下。

冰山

找到自己在大数据时代的定位

书中,维克托将大数据时代的从业者分为三类:

  • 基于数据本身的公司
  • 基于技能的公司
  • 基于思维的公司

它们都在大数据时代起着重要的作用。缺一不可。但任何单独一方却又无法构成大数据的全部要素。当然,有些“大”公司兼有这3种特性(比如Google和亚马逊)。它们才是大数据时代的领导者。

身为行业从业者,你是想将自己至于行业食物链的顶端还是底端呢?我不认为这是个问题。反而,如何找到合适自身公司在大数据时代的发展方向却不是一件易事。有些公司坐拥大量数据,但却将它们置之高阁,甚至于完全忽视它们的存在。这简直就是在自断财路(自寻死路)啊。

一般的科技公司,更多的会成为第一类和第二类的结合体。它们开发出一些最终用户可以使用科技产品,在用户使用这些产品的同时,他们也搜集着用户的大量数据。从地理位置、使用习性、个人喜好到社交圈、行程安排,他们无所不搜,不所不知。这些信息的原始价值是提供了改进产品的直接建议。但更多的是它们二次开发的价值。再次分析这些涉及面及其广泛的数据,使得这些科技公司可以开发出新的产品,找到新的生财之道。少数很有思想的人们,组成了第三类公司。他们提供前面两类公司创新的思维。新的思维可以帮助他们开阔利用大数据的视野。

书中也提到,一种新的行业也由此诞生——数据中间商。或者说:二道贩子。他们自己没有数据,他们通过购买数据,分解数据,有针对性的提供数据来获利。因为数据本身比用来处理它们的技术和思维更值钱。这个新的行业,为那些坐拥大量数据但不知道(或者不愿意)处理数据的公司提开拓了新的渠道。

在大数据时代,拥有数据的多少,决定者企业的竞争力。更多的数据暗示着对世界更多的了解,对趋势更多的把握以及对行业更多的主动性。在这个时代里,没有数据、不会(或者不去)利用数据,只会死路一条。

防控风险,掌控信息,保护隐私

就像硬币一样,凡事都有两面。大数据在给人们带来众多曾经无法想象的好处的同时,忧虑和风险也随之而来。在这个充满科技感的大数据时代,我们时刻都暴露在“第三只眼”之下:电商监视着我们的购物习惯,操作系统监视着我们的网页浏览习惯,微博对我们什么都知道,手机运营商时刻知道我们的位置。我们不希望隐私被暴露在聚光灯之下。每个人都有自己的秘密,之所以称之为秘密,就是因为希望它不被除了自己以为的人知道。但在这个时代,除非你什么都不带,把自己置身于原始森林,这点几乎很难做到。

书中提到,实际上,更让人们担忧的,是利用大数据来预测判断我们:

预测与惩罚,不是因为“所做”,而是因为“将做”。

我们不想看到《少数派报告》中的场景出现在现实生活中。

为了避免这种情况的发生,我们需要让数据使用者意识到,他们才是对数据负责的人。简单的让个人用户签署所谓的“最终协议”是不负责任的行为。如果你试图使用数据获利,你也需要对数据的保存和使用承担责任。数据需要有预先设定的保存期限,超过期限的必须永久删除。

人们需要对其“行为”负责,但无需对其“倾向”负责。我们需要把人当“人”看,而不是当数据看。大数据起到的应该是辅助的参考,而非决定性的判断。

这里引用书中最后的一段话作为结尾:

我们能收集和处理的数据只是世界上极其微小的一部分。这些信息不过是现实的投影。因为我们无法获得完美的信息,所以做出的预测本身就不可靠。这并未否定大数据的判断,而只是让大数据发挥了应有的作用。大数据提供的不是最终答案,只是参考答案。这也提醒我们在是用这个工具的时候,应当怀有谦恭之心,铭记人性之本。

发表评论

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s