万书网 > 文学作品 > 人生新算法 > 5.7 人类的假说验证分析不能用于大数据

5.7 人类的假说验证分析不能用于大数据




多年来,人们一直在研究用计算机分析大量数据的技术(称为  Analytics)。这项技术和我们现在介绍的“学习型机器”有何不同呢?

一直以来,分析者都是使用擅长演绎的计算机来分析数据(Analytics)。能进行这种分析的专家被称为“数据科学家”,作为现在最受关注的职业之一,数据科学家广受世人期待。

但是,这里有一个很大的问题。分析数据本来是一种“归纳性”工作,却不得不使用“演绎专用”的计算机。为了弥补其中的差距,在分析数据时,人类必须制定一个恰当的假说。那么,人类能制定出恰当的假说吗?

我们来看一下实验店铺的实际情况吧。数据的数量庞大、种类繁多,包括顾客、店员、货架、商品、时间和行动等等。数据属性的选项过多,人们根本不知道怎么制定假说。庞大的数据中究竟包含着怎样的现象和规律,人类无从想象。

实际上,人类根本就制定不了假说。明知制定不了却非要制定,那制定出的只能是相关人员容易想到的和已知的假说。就像这次竞赛中的专家一样,只能根据对相关人员的采访、以往的经验和直觉来制定假说,也只能用数据来验证该假说。

而且,这种由分析者提出假说并验证的方式,要花费巨大的时间和精力。制定假说时,还需要咨询相关人员并调查现场。从经验来看,包括上述咨询调查在内,对分析用数据的整理工作占整个分析工作的  90%  以上。即使可以使用计算机,9  成以上的工作仍是连续的人工作业和反复的实验摸索。

这很接近工匠从事的手工业。看到以往的大数据分析现场,我们会产生一种错觉,仿佛又回到了家庭手工作坊。“分析家”“数据科学家”看似是最先进的高科技职业,但实际上他们完全身处手工业世界,靠的是师傅与徒弟的直觉和经验。那些重要的、需要人力的工作,既没有实现工业化,也没有实现计算机化。

即使花费这么多的人力,按照提前制定的假说进行分析,很多情况下得出的也都是“理所当然”的结果。这一性价比未免太低。

我们在这里做的工作,正是历史上的科学家一直在做的工作。所谓科学家的工作,指的是找出观测数据背后的规律。回顾科学的历史,这是牛顿、路德维希·玻尔兹曼、爱因斯坦、薛定谔等少数天才所做的工作。而且,这样的科学发现屈指可数。只要不改变类似于以往手工业的方法,那么即使获取了大数据,也不会有太大改变。

有了人工智能  H  这种学习型机器,人类将不再需要“Analytics”。