5.7 人类的假说验证分析不能用于大数据-人生新算法-万书网

多年来，人们一直在研究用计算机分析大量数据的技术（称为  Analytics）。这项技术和我们现在介绍的“学习型机器”有何不同呢？

一直以来，分析者都是使用擅长演绎的计算机来分析数据（Analytics）。能进行这种分析的专家被称为“数据科学家”，作为现在最受关注的职业之一，数据科学家广受世人期待。

但是，这里有一个很大的问题。分析数据本来是一种“归纳性”工作，却不得不使用“演绎专用”的计算机。为了弥补其中的差距，在分析数据时，人类必须制定一个恰当的假说。那么，人类能制定出恰当的假说吗？

我们来看一下实验店铺的实际情况吧。数据的数量庞大、种类繁多，包括顾客、店员、货架、商品、时间和行动等等。数据属性的选项过多，人们根本不知道怎么制定假说。庞大的数据中究竟包含着怎样的现象和规律，人类无从想象。

实际上，人类根本就制定不了假说。明知制定不了却非要制定，那制定出的只能是相关人员容易想到的和已知的假说。就像这次竞赛中的专家一样，只能根据对相关人员的采访、以往的经验和直觉来制定假说，也只能用数据来验证该假说。

而且，这种由分析者提出假说并验证的方式，要花费巨大的时间和精力。制定假说时，还需要咨询相关人员并调查现场。从经验来看，包括上述咨询调查在内，对分析用数据的整理工作占整个分析工作的  90%  以上。即使可以使用计算机，9  成以上的工作仍是连续的人工作业和反复的实验摸索。

这很接近工匠从事的手工业。看到以往的大数据分析现场，我们会产生一种错觉，仿佛又回到了家庭手工作坊。“分析家”“数据科学家”看似是最先进的高科技职业，但实际上他们完全身处手工业世界，靠的是师傅与徒弟的直觉和经验。那些重要的、需要人力的工作，既没有实现工业化，也没有实现计算机化。

即使花费这么多的人力，按照提前制定的假说进行分析，很多情况下得出的也都是“理所当然”的结果。这一性价比未免太低。

我们在这里做的工作，正是历史上的科学家一直在做的工作。所谓科学家的工作，指的是找出观测数据背后的规律。回顾科学的历史，这是牛顿、路德维希·玻尔兹曼、爱因斯坦、薛定谔等少数天才所做的工作。而且，这样的科学发现屈指可数。只要不改变类似于以往手工业的方法，那么即使获取了大数据，也不会有太大改变。

有了人工智能  H  这种学习型机器，人类将不再需要“Analytics”。