大数据、机器智能和未来社会的图景

2.大数据（Big Data）的本质

机器智能离不开数据，那么大量的数据和现在大家所说的大数据是否是一回事呢？如果不是，它们之间又有什么联系和区别呢?

毫无疑问，大数据的数据量自然是非常大的，但是光是“量”大还不是我们所说的大数据。比如过去国家统计局的数据量也很大，但是不是真正意义上的大数据。这两者的差别我们可以从三个方面来看。

首先，大数据具有多维度性质，而不同维度之间有着天然的（而非人为的）联系。为了说明这一点，我们不妨看一个实际的例子。

2013年9月份，百度发布了一个颇有意思的统计结果《中国十大“吃货”省市排行榜》。百度没有做任何的民意调查和各地饮食习惯的研究，它只是从“百度知道”的7700万条和吃有关的问题里“挖掘”出来一些结论：

在关于“什么能吃吗？”的问题中，福建、浙江、广东、四川等地的网友最经常问的是“什么虫能吃吗”，江苏、上海、北京等地的网友最经常问“什么的皮能不能吃”，内蒙古、新疆、西藏，网友则是最关心“蘑菇能吃吗”，而宁夏网友最关心的竟然是“螃蟹能吃吗”。宁夏的网页关心的事情一定让福建的网友大跌眼镜，反过来也是一样，他们会惊讶于有人居然要吃虫子。

百度做的这件小事其实就是大数据的一个典型应用。它有这样一些特点。首先，它的数据量非常“大”。第二，这些数据维度其实非常多，它们不仅涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等等，而且里面包含了提问者的很多信息，互联网的IP地址，所用的计算机（或者手机）的型号，浏览器的种类等等。这些维度也不是明确地给出的（这一点和传统的数据库不一样），因此在外面人看来，这些原始的数据是“相当杂乱”，但是恰恰是这些看上去杂乱无章的数据将原来看似无关的维度(时间、地域、食品、做法，成分，人的身份和收入情况等)联系了起来。经过对这些信息的挖掘，加工和整理，就得到了有意义的统计规律。

当然，百度只公布了一点点大家感兴趣的结果。它完全可以从这些数据中得到更多有价值的统计结果。比如，它很容易得到不同年龄人、性别和文化背景（这些很容易挖掘出来）的饮食习惯，不同生活习惯的人(比如正常作息的、夜猫子们、经常出差的或者不爱运动的等等)的饮食习惯等等。如果百度的数据收集的时间跨度足够长，它还可以看出不同地区人饮食习惯的变化，尤其是在不同经济发展阶段饮食习惯的改变。而这些看似很简单的问题，比如饮食习惯的变化，没有百度知道的大数据，还真难得到。这就是大数据多维度的威力。

大数据的第二个特点在于它的完备性。为了说明这一点，让我们再来看一个真实的案例。从1932年开始，盖洛普一直在对美国总统选举进行预测，几十年来它也在不断地改进采样的方法，力求使得统计准确，但是在过去的几十年里，它对美国大选结果的预测可以讲是大局（全国）尚准确，但是细节（每一个州）常常出错。因为再好的采样方法，也有考虑不周全之处。

但是到了2012年总统选举时，这种“永远预测不准”的情况得到了改变。一位名不见经传的统计学家Nate Silver通过对互联网网上能够取得的各种大量的数据（包括社交网络上用户发表的信息、新闻信息和其它网络信息），进行大数据分析，准确地预测了全部50个州的选举结果，而在历史上，盖洛普从来没有做的这一点。当然，有人可能会问，这个结果是否是蒙的？这个可能性或许存在，但是只有一千万亿分之一，因此可以认为这是大数据分析的结果。在这个例子中，Silver并没有什么好的采样方法，只是收集的数据很完备。大数据的完备性，不仅有用，甚至有点可怕。

图4. Nate Silver对2012年美国大选的预测（左）和实际结果（右）的对比（红色的地方表示共和党获胜的州，蓝色的表示民主党获胜的州）

数据的完备性的作用远比准确预测一个总统选举大得多，Google无人驾驶汽车便是一个很好的例子。首先，无人驾驶汽车可以算是一个机器人，这点应该没有疑问，因为它能像人一样对各种随机突发性事件快速地做出判断。在这个领域Google只花了六年时间就做到了全世界学术界几十年没有做到的事情。在2004年，经济学家们还认为司机是计算机难以取代人的几个行业之一。当然，他们不是凭空得出这个结论的，除了分析了技术上和心理上的难度外，还参考了当年DARPA组织的自动驾驶汽车拉力赛的结果－－当时排名第一的汽车花了几小时才开出8英里，然后就抛锚了。但是，仅仅过了6年后，2010年Google的自动驾驶汽车不仅研制出来了，而且已经在高速公路和繁华的市区行驶了14万英里，没有出一次事故。

为什么Google能在不到六年的时间里做到这一点呢？最根本的原因是它的思维方式和以往的科学家们都不同－－它把这个机器人的问题变成了一个大数据的问题。首先，自动驾驶汽车项目是Google街景项目的延伸，Google自动驾驶汽车只能去它“扫过街”的地方，而在行驶到这些地方时，它对周围的环境是非常了解的，这就是大数据完备性的威力。而过去那些研究所里研制的自动驾驶汽车，每到一处都要临时地识别目标，这是人思维的方式。其次，Google的自动驾驶汽车上面装了十几个传感器，每秒钟几十次的各种扫描，这不仅超过了人所谓的“眼观六路、耳听八方”，而且积攒下来的大量的数据，对各地的路况，以及不同交通状况下车辆行驶的模式有准确的了解，计算机学习这些“经验”的速度则远远比人快得多，这是大数据多维度的优势。这两点是过去学术界所不具备的条件，依靠它们，Google才能在非常短的时间里实现汽车的自动驾驶。

大数据的第三个特征在它的英文提法“Big Data”这个词当中体现的很清楚。请注意，这里使用的是Big Data，而不是Large Data。Big和Large这两个单词有什么区别呢，Big更主要是强调抽象意义上的大，而Large是强调数量（或者尺寸）大，比如大桌子Large Table。Big Data的提法，不仅表示大的数据量，更重要地是强调思维方式的不同。这种以数据为主的新的做法，在某种程度上颠覆了我们长期以来在科学和工程上的方法论。在过去，我们强调做一件事情的因果关系，通过前提和假设，推导出结果。但是在大数据时代，由于数据的完备性，我们常常是先知道结论，再找原因（甚至不去找原因），那么我们是否愿意去接受这样的工作方式。事实上，在一些具有大数据的IT公司里，包括Google，阿里巴巴等，今天已经是按照这种思维方式做事情了。Google的产品比竞争对手稍微好一点，主要不是靠技术，而是靠它的数据比对手更完备，同时它愿意用数据来解决问题。阿里巴巴的小额贷款能做起来（而其它商业银行做不到），其实就是对大数据思维的一种诠释。这是一种我们以前完全没见过的新的思维方式，一种新的方法论。

大数据的这三个特点导致了机器智能和人具有完全不同的特点，它不是通过逻辑推理归纳演绎得出结论，而是利用大数据的完备性和多维度特点，直接找到答案。而大数据的完备性有可能让机器比人更能够掌控全局，或者说帮助决策者更好地掌握全局。

大数据不仅仅是数据量大，而在于它的天然多维度特点和它的完备性。数据驱动的方法结合呈指数增长的计算机性能导致了机器智能的产生，并且在今天这个时间点上可以比肩人类的智能，这才是大数据重要的根本原因。机器智能和人的智能是不同的，它不是依靠人严密的逻辑推理得到问题的答案，而是通过大数据的完备性直接找到答案，或者根据大数据多维度的特点找到以前我们无法发现的规律性。这将改变我们的思维方式，也就是所谓的采用“大数据思维”。

转载请注明：北纬40° » 大数据、机器智能和未来社会的图景