大数据时代
大学的时候,老师曾提出一个简单的问题: 什么是IT?
那个时候真的什么都不知道,就知道“挨踢” :)
IT全称是Information Technology,即信息技术。
在当代,多数技术人只知道关注T(技术)。
然而,在大数据时代,应该注重的是I(信息)本身。
这本《大数据时代》,打开了一道通往新时代的门,为此我们需要进行自我变革:
#思维变革
##随机采样
小数据时代由于技术和人力问题,只能采样随机采样来采集数据。
用最少的数据获得最多的信息,时代局限使然。
随机采样的局限性:
分析的精确性随着采样的随机性增加而大幅提高,但与样本数量的增加关系不大。
所以,采样的随机性比数量更重要。
而且不适合考察子类别的情况,一旦继续细分,错误率就大大增加。
我们不能满足于正态分布一般中庸平凡的景象,生活中真正有趣的事情经常藏匿在细节之中。
采样分析却无法捕捉到这些细节。
##样本=总体
一切都改变了,我们需要的是所有的数据,样本=总体。
无论是针对一个小团体还是整个社会,多样性是有额外的价值的。
“大数据”全在于发现和理解信息内容及信息之间的关系。
##拥抱混乱
很多情况下,与其致力于避免错误相比,对错误的包容会带给我们更多的好处。
执迷于精确性是信息匮乏时代和模拟时代的产物。
只有5%的数据是结构化且适用于传统数据库的。
如果不接受混乱,剩下的95%的非结构化数据都无法利用。
大数据的简单算法比小数据的复杂算法更有效。
接受数据的不精确和不完美,反而能够更好的进行预测,也能够更好地了解这个世界。
混乱是一种标准途径,而不应该是竭力避免的。我们再也不能假装活在一个齐整的世界里。
##因果只是关联的一种
在大数据时代,知道“是什么”就够了,没有必要知道“为什么”。
不必非得知道现象背后的原因,而是让数据自己“发声”。
在哲学界,关于因果关系是否存在的争论已持续几个世纪了。
如果凡事皆有因果,那么我们就没有决定的自由,即宿命论。
所有生命的轨迹都只是受因果关系的控制而已。
不是因果关系,而是相关关系。
相关关系的核心是量化两个数据值之间的数理关系。
我们理解世界不再需要建立在假设的基础上,这个假设是指针对现象建立的有关其产生机制和内在机理的假设。
一个东西要出故障,不会是瞬间的,而是慢慢地出问题的。
通过找到关联物并监控它,我们就能预测未来。
##三个思维变革
实际上,与大数据相关的三个思维转变:
- 分析与某事物相关的所有数据,而不是依靠分析少量的数据样本。
- 接受数据的纷繁复杂,不再追求精确性。
- 不再探求难以捉摸的因果关系,转而关注事物的相关关系。
#商业变革
大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。
##数据化
数据化不是数字化,我们可以从文字,方位,沟通,甚至最不可能的地方提取数据。
世间万物,一切皆可“量化”。
有了大数据的帮助,我们不会把世界看做一连串自然或是社会现象的事件。
本质上世界是由信息构成的。
##数据创新
数据就像一个神奇的宝石矿,第一眼只能看道冰山一角,不断挖掘才能不断给予。
对于数据,我们可以进行重组、扩展、开放和再利用。
就算是数据废气,数据折旧也可从中估值。
##角色定位
根据价值的不同来源,分别出现三种大数据公司:
- 基于数据本身的公司
- 基于技能的公司
基于思维的公司
同时也出现了:
新的职业: 数据科学家
新的中介: 数据中间商传统的专家也会逐渐消亡,全才会比专才更重要。
大数据,决定企业竞争力。
#管理变革
##风险
大数据会带来很多威胁:
加深对大众隐私的威胁:
告知与许可,模糊/匿名化失效,隐私被二次利用。对公平公正和自由意志的亵渎 :
运用预测来判断和惩罚人类的潜在行为。运用不当会变成权贵依赖镇压民众的工具。
如果大数据分析完全准确,那么我们的未来就会被精准的预测。
因此,我们不仅失去选择的权利,而且会按照预测去行动。
如果预测成为了现实,我们也失去的自由的意志,自由选择生活的权利。既然我们别无选择,那么我们也就不需要承担责任,这不是很讽刺吗?
我们比想象中更容易受到数据的统治——让数据良莠参半的方式统治我们。
反对数据独裁和对数据的过分依赖,才能走出大数据的困境。
##掌控
我们在生产和信息交流方式上的变革,必然会引发自我管理上的变革:个人隐私保护
从个人许可证到让数据使用者承担责任。个人动因vs预测分析
保护个人动因,防范“数据独裁”的危害: 公开、公正、可反驳原则。击碎黑盒子
大数据算法师的崛起:评估数据源,分析和预测工具的选取,计算结果的解读和考察。反数据垄断大亨
#正在发生的未来
大数据为我们提供的不是最终答案,只是参考答案。
帮助是暂时的,更好的方法和答案还在不久的未来。
凡是过去,皆为序曲