万书网 > 心理哲学 > 未来版图:全球聪明公司的科技创新趋势和商业化路径 > 第一章 人工智能,在屋子里出生的大象

第一章 人工智能,在屋子里出生的大象

    任何能对收入千亿美元的企业产生影响的东西,都是不可以小觑的。

    ——安德鲁·葛洛夫

    (《只有偏执狂才能生存》,1997,光明日报出版社)

    沃森(Watson):“为了提高语言技能,我读了你所有的歌词。”

    鲍勃·迪伦(Bob Dylan):“你读了我所有的歌词?”

    沃森:“我每秒可以读取8亿页的歌词。而且我分析出你的歌的主题是探讨随着时间的流逝,爱转淡。”

    鲍勃·迪伦:“听起来是对的,我想我们可以一起写歌。”

    沃森:“我会唱歌。”

    鲍勃·迪伦:“你会唱歌?”

    接着,沃森开始哼起一段旋律。鲍勃拿起吉他,转身离开……

    这是2015年IBM为人工智能(AI)“沃森”制作的广告。这不是鲍勃·迪伦第一次为科技公司拍广告。1997年,鲍勃·迪伦首次接受广告拍摄的邀请,是乔布斯那个苹果经典广告Think Different(“不同凡想”),一同出现在广告中的人物还有甘地、爱因斯坦和马丁·路德·金。也是在1997年,IBM的“深蓝”(Deep Blue)第一次代表人工智能击败了人类国际象棋世界冠军加里·卡斯帕罗夫。

    之后,经过18年的发展,棋力最高的人工智能围棋程序才大约达到业余五段围棋棋手的水准,且在不让子的情况下,仍无法击败职业棋手。2012年,在4台PC(个人计算机)上运行的Zen程序在让5子和让4子的情况下两次击败日籍九段棋手武宫正树。2013年,Crazy Stone在让4子的情况下击败日籍九段棋手石田芳夫。

    会下围棋的人工智能阿尔法狗(AlphaGo)和之前的围棋程序相比,表现显著提升。在和Crazy Stone、Zen等其他围棋程序的500局比赛中,单机版阿尔法狗(运行于一台计算机上)仅输了一局。而在其后的对局中,分布式版阿尔法狗(以分布式运算运行于多台计算机上)在500局比赛中全部获胜,且对抗单机版阿尔法狗约有77%的胜率。2015年10月开发的分布式运算版本阿尔法狗使用了1202块CPU(中央处理器)及176块GPU(图形处理器)。

    从2015年到2016年,阿尔法狗一步步战胜最顶尖的人类棋手,成为围棋的世界第一。即使鲍勃·迪伦在2016年意外获颁诺贝尔文学奖,也没有引起如此巨大的轰动。到了2017年,人工智能成为技术创新与商业结合的最热“电视连续剧”,也成为投资者行动和消费者讨论的中心。

    Gartner公司对923名总裁或更高职位的企业高管的调查显示,76%的企业计划在未来一年里尝试某种形式的人工智能或机器学习。一系列被标签为“人工智能”的事件,其影响远远超出了人们可以预判的范围。而试图“追剧”的观众,找不到任何一个有能力剧透的对象。

    检视所有卷入游戏领域的“全球50大最聪明公司”,我们找到一条线索:这是一头出生在屋子里(而不是闯进屋子)的大象。

    苹果独占Siri,却挡不住暗流汹涌

    2013年,“人工智能”这个曾经晦涩的名词已经成为技术领域最热门的趋势之一,《麻省理工科技评论》将其选为当年“10大全球突破性技术”。大型互联网公司正在使用它来推出理解图像和语音的在线服务,基于深度学习算法的芯片也正在被设计成无人机、无人驾驶汽车等产品。其中,语音识别技术因为Siri在消费者超级应用界面之一——苹果手机上令人印象深刻的表现,在商业上展现出巨大的可能。

    Siri(Speech Interpretation and Recognition Interface)是一款内置在苹果iOS系统中的人工智能助理软件。此软件使用自然语言处理技术,让用户可以使用自然的对话与手机进行交互,完成搜索数据、查询天气、设置手机日历、设置闹铃等服务。

    创建于2007年的Siri曾是美国国防部DARPA(美国国防高级研究计划局)的研究项目,定位为国家级的虚拟语音助理。之后,Siri成为iOS手机操作系统中的一个应用程序,也在黑莓与安卓(Android)平台提供服务。苹果公司于2010年4月28日收购了Siri并重新开发后,使Siri成为苹果设备的内置软件,并只允许在苹果公司拥有的iOS、macOS系统中运行。

    2013年,因使语音识别技术成功地实现商业应用而登上“全球50大最聪明公司”榜单的是一家纳斯达克上市公司——纽昂斯通信公司(Nuance Communications, Inc.)。其上榜理由是它“创建了语音识别技术从汽车到视频游戏的新应用”。

    苹果收购Siri后,选择Nuance来作Siri的技术服务商。一方面,Nuance在语音识别技术上的创新积累可以大大加快苹果需要在大众消费者面前展示这项技术给用户体验带来的跃升;另一方面,合作开发意味着分担研发风险,分享研发收益。至少在那时,已经拥有超级应用界面的苹果还没有清晰地看到人工智能在语音识别领域的高投资回报率,或者其他竞争对手的紧迫进逼,迫使它必须大张旗鼓地加入竞争。更何况,Nuance的市值也没高到连乔布斯也买不起,必要时仍可直接出手收购。

    但搭上Siri之后,Nuance雄心勃勃。除了给苹果公司提供技术支持, Nuance还与多家手机、电视机和GPS(全球定位系统)厂商保持合作关系。三星(Samsung)的S-Voice也运用了Nuance的技术。

    紧接着,Nuance拒绝了苹果的收购,也没有倒向谷歌。也就是说,Nuance仍然控制着语音识别技术市场的开放度。它可以继续向三星、谷歌等苹果的竞争对手提供技术,也保证了带有Siri的iPhone手机不需要向谷歌缴纳专利费。

    然而,这样的控制和保证,对已经尝到Siri等语音识别技术滋味的公司是远远不够的。虽然语音识别技术市场上只有Nuance一家市值不到50亿美元的公司崭露头角,但是互联网高科技公司中的巨头并不是全无警觉与作为。

    苹果收购了自动语音识别公司Novauris Technologies(以下简称Novauris),致力于建立一支强大的语音识别团队,并最终取代Nuance作为Siri技术服务商的地位。

    成立于2012年的Novauris是英国研究机构Dragon Systems旗下的附属公司,以语音听写识别著称。被Nuance 拒绝之后,苹果开始在波士顿招揽人才,先后招聘了多位前Nuance语音科学家,包括前研究副总裁拉里·吉利克(Larry Gillick)、Siri 的项目经理贡纳尔·艾弗曼(Gunnar Evermann)、微软(Microsoft)语音识别项目高管亚历克斯·阿赛洛(Alex Acero)。

    谷歌在2004年从Nuance挖角,把谷歌语音识别技术的开发部门交给Nuance前联合创始人Mike Cohen执掌。2008年,在Nuance工作4年的Hugo Barra跳到谷歌的移动部门,后进入安卓系统开发核心部门,同时也回到他2000年在麻省理工学院与同学创办的第一家公司的核心业务——手机语音辨识,参与开发谷歌语音搜寻项目。

    2011年,谷歌收购了语音通信技术公司Say Now 和语音合成技术公司Phonetic Arts。其中,Say Now创建于2005年,可以把语音通信、点对点对话以及群组通话和社交应用整合在一起,支持的设备包括PC浏览器、智能手机。一年后(即2012年),谷歌发布了Google Assistant的前身 Google Now。Hugo Barra也作为参与研发Google Now的骨干上台作了简报。到2012年时, Hugo Barra成为谷歌的副总裁,2013年,他加入了当时销售额增长最快、市场潜力最大的Android系统手机厂商——小米。

    Facebook在2013年收购了语音识别公司Mobile Technologies。Mobile Technologies创建于2001年,在2009年推出了Jibbigo应用。Jibbigo应用允许用户在25种语言中进行选择,使用一种语言进行语音片段录制或文本输入,然后将翻译显示在屏幕上,再根据用户选择的另外一种语言读出来。

    2013年,亚马逊收购了Nuance的竞争对手、语音技术公司Ivona Software。Ivona Software主要做文本语音转换,被收购时支持17种语言以及44种不同的声音类型。当时,亚马逊已经有了2011年收购的语音识别公司Yap,以及2012年收购的语音技术公司Evi。成立于2006年的Yap主要提供语音转文本服务,代表应用是Yap语音邮件。亚马逊利用Yap的技术建立了自己的语音技术平台,服务于亚马逊的网上搜索和客户服务等领域。Evi是一家初创公司,原名True Knowledge;在获得了Nuance语音识别技术的授权后,它基于自主的自然语言搜索引擎开发了一款与Siri类似的应用。

    在2013年的市场眼中,Nuance 还是世界上最大的专门从事语音识别软件、图像处理软件及输入法软件研发、销售的公司。Nuance拥有当时最先进的计算机语音识别软件Naturally Speaking。Nuance的另一款软件Nuance Verifier能提供声纹比对的功能,与Speech Recognition结合可提供更安全的语音商务服务。

    人工智能的早鸟,能不能得到回报

    2017年,英伟达跑赢了高通(Qualcomm)。三年前的2014年,高通跑赢了英特尔(Intel)。它们都是在人工智能上赌对方向的赢家。2017年的今天,谷歌在人工智能上的成就,也与三年前击败Facebook、成功收购DeepMind Technologies(以下简称DeepMind)紧密相连。

    2014年,3家公司因为人工智能而上榜“全球50大最聪明公司”。上榜公司的总市值接近6000亿美元。排在2014年“全球50大最聪明公司”榜单第3位的是谷歌。它以超过5亿美元赢得DeepMind公司。DeepMind将机器学习与神经科学结合起来,创建了“通用学习算法”。

    两年前(即2012年),Google X 实验室开发出了一套具备自主学习能力的神经网络系统。不借助任何外界信息的帮助,这种神经网络系统就能从1000万张图片中找出那些有小猫的图片。在开始分析数据之前,研究者不会向系统输入任何诸如“猫是什么样子”的信息。一旦系统发现了重复出现的图像信息,计算机就会自动创建一个“图像地图”,该地图稍后会帮助系统自动检测与前述图像信息类似的物体。这个项目没有像通常做的那样由研究人员为算法框定边界,而是直接把海量数据投放到算法中,让算法自动从数据中学习。这个项目的技术被应用到了安卓操作系统的语音识别系统上。

    生于1976年、坚信“数据会说话”的吴恩达(Andrew Ng)是谷歌“识猫”项目负责人之一,他也曾是斯坦福大学计算机科学系和电气工程系的副教授、斯坦福人工智能实验室的主任。2008年,吴恩达入选《麻省理工科技评论》“35位35岁以下科技创新青年”。2011年,吴恩达在谷歌创建了“谷歌大脑”项目,通过分布式集群计算机开发超大规模的人工神经网络。此外,他还与达芙妮·科勒一起创建了在线教育平台Coursera。2012年,吴恩达开始在 Coursera 平台上线面向全球的机器学习课程。到2017年年初,Coursera平台的选课人数已达180多万人。2013年,吴恩达入选《时代》杂志年度“全球最有影响力100人”,成为16位科技界代表之一。

    把自己的“聪明”程度与人工智能研发越来越紧密地相连,表明一线大公司对人工智能的潜能与其在更广泛领域的商业化前景越来越看好。随着流向人工智能的资本增加,为之铺设“高速公路”的基础设施商突然意识到了新的需求和机会——芯片业开始发力。

    人工智能的一个创新方向是为智能手机创建能够运行神经网络的硬件。排在2014年“全球50大最聪明公司”榜单第18位的高通公司,因开发以“神经元”计算切入的芯片算力突破技术,2013年的营收增长30%。高通当年的市值最高超过1000亿美元,排在英特尔之前(2012年11月高通的市值第一次超过英特尔)。

    当谷歌开发出“认得”猫的人工智能时,在“看”YouTube视频的那个“它”有16000个处理器和10亿个节点。普渡大学的科学家则努力以更紧凑、更节能的方式设计深度学习硬件,使智能手机和其他移动设备也能理解图像和视频内容。

    2013年12月,在美国内华达州的神经信息处理系统大会上,普渡大学研究小组展示了与传统智能手机处理器连接的协处理器。这个协处理器可以帮助手机运行深度学习软件,能够检测街道场景的面部或标签部分。协处理器的设计在FPGA上进行了测试。FPGA是可重新配置的芯片,可以通过编程来测试新的硬件设计。

    当然,该原型机没有谷歌“识猫”的人工智能那么强大,但它显示出新的硬件设计可以令Google Glass这样的智能可穿戴设备也“理解”照片或视频。而以此为基础开发的应用程序能够在识别出特定的人物(如妈妈)、对象(如出租车)或场景(如医院)后采取行动。

    深度学习是由模拟神经元构成的多层网络过滤数据。单个的模拟神经元构成虽然简单,但一起工作却可能表现出复杂的行为。计算机模拟这样的网络,效率并不高。普渡大学的协处理器专门用于运行多层神经网络,并将其用于大量的图像。在测试中,原型机的效率是GPU的15倍,系统改进后的效率更可以达到目前效率的10倍。

    主持这项研发的普渡大学教授Eugenio Culurciello已经创立了一家名为Tera Deep的公司,将自己的设计商业化。

    与此同时,HRL实验室(波音和通用汽车的一个联合实验室)神经和涌现系统中心主任Narayan Srinivasa的研究重点是通过更加极端的解决方案来解决这个问题:设计具有硅神经元和突触的芯片,模仿真正的大脑。他表示,使用单独的硬件实现深度学习是有道理的,因为通常处理器和内存位于硬件的不同位置,而人类大脑以及深度神经网络的存储和处理是交织在一起的。

    继语音识别技术之后,人工智能下游的消费应用场景也逐渐丰富起来。随着微软发布语音助理 Cortana,越来越多的超级应用界面公司意识到,基于人工智能的语音技术不仅是推动用户原有应用界面的背后力量,更可能成为下一代超级应用界面。2014年获得1300万美元融资的Expect Labs成为排名第47位的“全球50大最聪明公司”,它基于实时语音语义分析开发的软件通过倾听对话而提供相关信息,最多有8人可以通过公司的Mind Meld应用程序同时在线,参与对话 [1] 。

    一些公司在试图模仿、替代人脑,另一些公司则专注于“人机共生”,开发增强人类能力的软件。心理学家和计算机科学家J.C.R.Licklider在1960年发表了一篇预言性文章,开创了“人机共生”这个思考方向。

    在“深蓝”打败加里·卡斯帕罗夫的8年后,两名拥有3台计算机的美国象棋业余爱好者从巨型计算机象棋大师的手中夺走了2万美元的奖金。这次,胜利者依靠的不是自身的国际象棋技能,而是一种“人机共生”的工作方式:计算机负责计算,人负责决策。

    Palantir是美国加利福尼亚州帕罗奥图市的一家快速成长的软件公司,其目标就是促进“人机共生”。Palantir的软件让用户工具能够探索互联的数据,并尝试通过视觉来呈现信息,通常用作跟踪人们思考的地图。一家银行购买了Palantir的软件,以便侦测窃取或泄露敏感信息的员工。监测的信息包括员工何时何地进入地点,以及公司网络上的数字活动记录。相较于自动化系统里是用一个算法根据过去的数据计算出一切,Palantir这个系统正好相反。

    Palantir的创始人在PayPal工作期间受到“人机共生”理念的启发。原本,PayPal设计了一个自动化系统来标记欺诈性交易。该系统能够抓住80%的简单欺诈行为,但是无法应对复杂的骗局。最后,PayPal研发了一款软件,让操作人员能够追踪剩下的20%的欺诈行为。其通过分析工具洞察大量数据中的可疑活动,而不是等待自动化系统发现。

    成立了9年的Palantir有美国中央情报局提供的资助,数据分析软件的销售对象包括执法机构、银行和其他行业,并正在扩展到医疗保健等新兴行业。《福布斯》在2013年时估计,这家公司的收入为4.5亿美元。据彭博社报道,2017年年底,该公司的订单总额可达35亿美元。

    从商业上看,“人机共生”或者说“有限”人工智能,成功的概率似乎更高。人们适应了个人生活与智能手机的共生关系,能够在主导权不变的条件下享受更多工具性的助理服务。

    Palantir研发负责人Shyam Sankar和IBM研究策略总监Zachary Lemnios都是Licklider的粉丝。Shyam Sankar认为,分析师只有获得了能让他们从各个角度创造性地检查数据的工具,才能发现这些“灵光一闪”的时刻。Zachary Lemnios则觉得Licklider的想法有助于IBM在“认知计算”方面的研发,包括虚拟助手软件和像大脑一样运作的芯片。

    无论沿着哪一条研发路径走,人工智能都不是人人可以参与的便宜的联机游戏。在拥有资本实力的大公司之间,竞争变得白热化,收获却依然很遥远。这一年(2014年),亚马逊的表现仍然不起眼。Fire手机是一次失败。搭载AWS云计算软件的Echo智能音箱,也得到一片嘘声。市场和业界还要等两年才能反应过来,并为之叫好。

    而沃森尽管在2011年美国热门益智节目《危险边缘》(Jeopardy !)中打败了最高奖金得主布拉德·鲁特(Brad Rutter)和纪录保持人肯·詹宁斯(Ken Jennings),但到了2014年,IBM投资的10亿美元只收回不到1亿美元。通过基于沃森的销售,IBM获得的收入远低于其每年100亿美元的长期目标。对于IBM来说,认知计算是指了解自然(人类)语言并可以通过挖掘所有数据业务面临的所有非结构化数据(如文本和音频)来得出合理结论的系统。而沃森是IBM在这一领域最大的商业想象,它决心加大赌注。

    于是,从事沃森技术的部门将直接向IBM首席执行官弗吉尼亚·罗梅蒂(Virginia Rometty)汇报。员工人数增加了4倍,达到2000人。IBM还计划将沃森与其他“认知计算”技术结合,并追加投资10亿美元,大步推进沃森的商业化。沃森首席技术官Rob High 告诉《麻省理工科技评论》,对于向前推进一个更大的投资,“这是正确的时间”。

    想让沃森成为可以向企业销售的“认知服务”引擎,就必须添加语音识别和图像识别功能。不过,IBM的问题是,沃森在现实世界中挖掘书面信息和处理自然语言的能力仍未达到理想状态。

    IBM一直希望沃森能够阅读医疗记录并推荐治疗方案,尤其是癌症治疗。如果说参加电视问答游戏是在周末爬爬北京的香山,那么为癌症患者提供对症的治疗建议就是一次海拔5000米以上的登顶挑战。同时,医生写下的医疗记录充斥着行话、缩略语和不一致的术语,这也给沃森阅读医疗记录带来了挑战。

    与IBM一起研发这种“癌症助理”的美国纪念斯隆-凯特林癌症中心的研究人员在2013年提供的数据中,沃森准确地确定了患者记录中的所有关键数据,花费的时间仅仅是平时的一半。但这还不是医生需要的人工智能的医疗建议。从医学课本里找一条治疗建议的工作,价格便宜得多的软件就能完成。纪念斯隆-凯特林癌症中心的癌症专家想要的沃森是医生的顾问和同事,是临床医学指南的搜索软件。

    沃森、Go或者是吴恩达……这是争夺注意力的竞赛

    对技术的商业化而言,吸引资本和注意力,始终是第一要务。

    在不同的区域市场,更多的企业意识到,人工智能可能满足它们通过技术创新来建立新的盈利增长点的需求。人工智能研发公司也感觉到竞争加剧,想要获得更多合作伙伴的支持,提高未来市场的占有率,就必须赢得投资人、客户、最终消费者和政府等各类决策者的注意力。2015年,具有高辨识度的智力人才争夺,吸引上下游实力强劲的合作伙伴加入游戏,像乔布斯那样精心策划、制作、投放广告,直至公开张扬地挑战人类智能,都使人工智能走出研究机构和大公司的实验室,成为一个市场热点。

    IBM不惜重金请奥美策划了系列视频广告和《纽约时报》的整版广告。正是在其中一个视频广告里,沃森和一年之后(2016年)获得诺贝尔文学奖的音乐人鲍勃·迪伦进行了本章开头的那段对话。

    阿尔法狗也做好了扬名立万的最后准备。2015年10月,阿尔法狗击败欧洲围棋冠军、华裔法籍职业棋手樊麾,成为第一个无须让子即可在19路棋盘上击败围棋职业棋手的计算机围棋程序,写下了历史。DeepMind也于2016年1月在《自然》上发表了相关论文。下一步,它要在围棋竞赛中建立IBM“深蓝”在国际象棋竞赛中那样的功绩。

    2015年,4家公司因在人工智能领域的突破而登上“全球50大最聪明公司”榜单。上榜公司的总市值接近3000亿美元。一直紧跟全球科技创新趋势的中国互联网公司浮出水面。

    百度,这个在中国市场占有率第一的搜索引擎公司,排在2015年“全球50大最聪明公司”榜单的第21位,上榜理由是“中国互联网公司的新深度学习研究实验室在面部和语音识别领域取得了值得注意的成果”。百度2014年的研究开支增加了70%,并在当年5月16日将吴恩达招至麾下。吴恩达加入百度后,负责“百度大脑”计划,并担任百度的首席科学家。

    刚在旧金山创办一年的公司Enlitic因“其深度学习技术可以在医学扫描中自动发现肿瘤”名列2015年“全球50大最聪明公司”榜单的第39位。创始人兼首席执行官(CEO)杰里米·霍华德来自澳大利亚的墨尔本,第一次“创业”是销售游戏软件,18岁时他作为一名自学成才的数据分析师被麦肯锡雇用,先后创立了Optimal Decision Group(用数据分析来帮助保险公司提高利润)和FastMail。2010年,杰里米·霍华德在一场Kaggle比赛中获得第一,随即被邀请加入 Kaggle ,担任总裁兼首席科学家。

    Enlitic 是杰里米·霍华德在2013年12月离开Kaggle后创建的公司,通过深度学习来改进医学诊断和临床决策。2015年10月,Enlitic再获1000万美元融资,投资方为影像诊断服务公司Capitol Health。Capitol Health是一家为澳大利亚各地的诊所提供影像诊断服务的上市公司。Enlitic通过为Capitol Health提供深度学习的技术,来提高其放射科医生的工作效率。Capitol Health则在给Enlitic提供珍贵的医疗影像的同时,让其放射科医生与Enlitic的软件工程师进行协作。

    澳大利亚医疗保险预算中的放射性检查的费用在20亿美元以上,2014—2015年的扫描次数约为3360万次。对这些扫描数据的分析工作,一个Enlitic程序可以在8天内全部做完,而一个人可能需要1282年。2016年,将Enlitic算法与4名顶级放射科医师的工作进行了对比,其结果是,人类放射科医生未能发现的7%的癌症,Enlitic全部发现;有66%的病例被人类放射科医生误诊为癌症,Enlitic为47% [2] 。

    同样对医疗市场紧紧咬住不放的是IBM。IBM位列2015年“全球50大最聪明公司”榜单的第46位,《麻省理工科技评论》认为IBM“关于人工智能的新型研究可以帮助该公司实现长期计划:让大数据更有用”。2015年, IBM在北美签署使用沃森系统指导癌症治疗的医院数量达到14家。

    与此同时,沃森还在不断拓展应用领域。沃森在唱歌、拍广告之余,也做沙拉。据《麻省理工科技评论》报道,沃森记住了10000种食谱。在沃森的支持下,用户可以选择几种关键食材来“发现”食谱,然后通过类似在线音乐电台的匹配算法将具有同样特征的食材分为一组,也可以用最初选择的食材与系统识别的食材配对,或将其替换为另一种。

    语音个人助理研发、应用与市场在2015年持续成长。之前,苹果有了Siri,谷歌有了Google Now,微软有了Cortana。2015年,Facebook 收购了语音识别公司Wit.ai 。Wit.ai 是孵化器Y Combinator 旗下的创业公司。在创始团队中,Alex Lebrun 任首席执行官。Alex Lebrun 此前也创办过一家语音技术公司 VirtuOZ,该公司后来被 Nuance 收购。团队成员Laurent Landowski是VirtuOZ 的欧洲区总经理。Wit.ai在种子轮融资中得到了300万美元,投资方包括Andreessen Horowitz、SV Angel、Ignition Partners以及影星Ashton Kutcher 等。

    有观察者认为,该公司的技术有助于Facebook获得更多信息用于定向广告。而对马克·扎克伯格来说,事情恐怕没有那么简单。Wit.ai允许用户直接通过语音来命令移动应用程序 (如iOS、安卓等平台)、穿戴设备、机器人以及任何你可以想到的智能设备。简单来说,是“能把语言转化为可操作的数据”,让创业者能够给自己的应用程序引入语音识别技术,帮助开发者汇集他们的语音样本来驱动一个语音与自然语言识别系统。通常来说,语音算法的开发者需要先创建“语法”——你希望计算机能够识别的单词和词组集合,然后“训练”计算机识别那个语法。由于不同的用户会用不同的方式来表述他们的指令,语法需要能够识别尽可能多的相同意图的不同表达方式。而Wit.ai让用户能够共享语法和训练数据。开发者能够复制那些语法来随意调整自己的应用程序。

    位于2015年榜单第28位的“全球50大最聪明公司”是英伟达,其“芯片对深度学习和无人驾驶汽车这样的尖端技术而言是至关重要的硬件”。作为一家早在1993年就成立的芯片公司,英伟达的名声一直限于计算机游戏的GPU供应商。2015年英伟达的收入为47亿美元,股价为20美元。然而,仅仅两年后(截至2017年11月),英伟达的收入就增至69.1亿美元,股价已超过200美元,因为现在它的客户是人工智能。

    争当卖水人的芯片商们

    需求正在改变。对芯片商来说,对未来订单的预期决定了一切。在人工智能和机器学习的早期阶段,按美国航空航天局前局长丹·戈尔丁(Dan Goldin)的说法:“就像狂野的西部,总会有疯狂的事情发生。”

    丹·戈尔丁创办的Knupath公司在2016年6月推出了一款名为Hermosa的人工智能芯片,以及连接51.2万个Hermosa和其他芯片的软件。第一个版本将专注于在嘈杂的环境中识别特定的声音。用户可以开着敞篷车,边听收音机,边用自己的声音登录电子银行。该公司筹集了1亿美元的资金。

    2016年,在人工智能领域有4家公司登上“全球50大最聪明公司”榜单。上榜公司的总市值接近9000亿美元。

    名列2016年“全球50大最聪明公司”榜单第30位的是一家叫Movidius的初创公司。Movidius的主要业务是为计算机视觉应用开发专用芯片,以及全新的增强现实与虚拟现实专用芯片。这对增强现实与虚拟现实设备,以及下一代智能手机和无人机,都具有重要意义。

    这家公司由Sean Mitchell和David Moloney创立于2006年,早期做的是将旧电影转为3D电影的业务,为3D电影市场做内容。后期开始研发应用于3D渲染的芯片,并开始应用于计算机视觉应用领域。2015年4月,Movidius宣布完成4000万美元的E轮融资,由Summit Bridge Capital、Capital-E、德丰杰和Emertec Gestion等投资机构投资,融资总额达到8650万美元。

    Movidius花费9年时间自主研发低功耗视觉处理器Myriad系列VPU,它能够为设备提供强大的自主运算能力,从无人机、虚拟现实(VR)到增强现实(AR)都有所涉猎。2014年,Movidius与谷歌的Project Tango项目合作,用Myriad 1打造室内三维地图。2016年2月,谷歌与 Movidius 合作,将图片识别功能整合在手机上,以促进深度学习功能在移动终端的运用。2016年3月,大疆的“精灵4”同样采用了Movidius 的 Myriad 2芯片。2016年6月,联想也和 Movidius 建立了战略合作伙伴关系,由后者在未来为其虚拟现实设备提供技术支持 [3] 。

    毫无疑问,2016年“全球50大最聪明公司”榜单上排在第49位的另一家公司——英特尔密切关注着Movidius的一举一动。将人工智能嵌入移动设备(如手机、可穿戴设备、平板电脑、汽车等),这样的芯片不是英特尔的“菜”。类似芯片的单位利润也远远比不上英特尔的主流产品的单位利润。但Movidius这类新型芯片商看重的是人工智能所形成的新市场的规模。仅无人驾驶汽车每年的产量就可能达到数千万台,如果每辆车都有很多这样的芯片,这个细分市场的规模即可匹敌传统的PC市场。

    英特尔在前几波计算机行业的浪潮中一直扮演着“卖水人”的角色。现在,它又发现了涌向“新金山”的人潮。不过,像每一次“淘金潮”所发生的那样,试图垄断“卖水生意”的绝不止英特尔一个。英特尔在计算机芯片市场长期独占鳌头,靠的是走在客户需求的前面。

    1997年,英特尔首席执行官安迪·格罗夫(Andy Grove)成为哈佛商学院教授克莱顿·克里斯坦森(Clayton Christensen)教授的第一批大企业家。察觉到英特尔可能被PC芯片的竞争对手以更便宜的产品削弱,安迪·格罗夫邀请克莱顿·克里斯坦森与他的团队讨论对策。没多久,英特尔为PC推出了一系列低端赛扬处理器,摧毁了Advanced Micro Devices等公司的赶超梦。

    但是,最近10年,世界上最大的芯片制造商错失了芯片制造方面的最大机会——移动芯片。尽管投资巨大,英特尔还是取消了部分移动芯片Atom的开发,同时裁减了12000个工作岗位。而更近一些,英特尔对又一个潜在的巨大市场——为深度学习开发人工智能芯片也不太上心。

    直到2016年。

    4月,英伟达发布了运算速度极快的深度学习算法芯片——特斯拉P100 GPU。对于英伟达来说,深度学习正在创造收入增长。将发展重点放在人工智能,主要在于往深度学习方向发展的大型互联网公司,发现GPU可以帮上忙。最好的英特尔处理器中的每一个都包含几十个用于运行复杂算法的内核,拥有足够的处理能力来运行大量的电子表格或企业软件,但对运行深度学习算法反而浪费和低效。针对深度学习算法优化的芯片会将特定类型的问题(如理解语音命令或识别图像)分解成数百万个小块。包含数千个微处理器核心的英伟达的GPU的算力,正好能“不假思索”地同时处理数千个这样的小块,一次性地对图像或其他数据进行正确分类。

    因此,英伟达一下子在新兴市场上占据了领先地位。从汽车到制药再到金融服务,3500个客户的合作需求涌向圣克拉拉。

    5月,谷歌宣布,其专门为深度学习算法Tensor Flow设计的专用集成芯片TPU已经秘密使用了一年多。这是谷歌第一次逆行到昂贵且困难的上游产业——芯片,因为谷歌不满足于市场上的现成产品。尽管谷歌将继续在计算基础架构中使用英特尔处理器,但其人工智能的快速发展和越来越激烈的竞争都要求定制化硬件。

    9月,微软发布了可以执行BING机器学习算法、支持Azure和Office365的FPGA。这个与英特尔长期合作的大客户正尝试利用Altera等公司的可编程芯片,例如FPGA,来增强英特尔处理器的计算性能,以提高网页搜索速度。Altera在20年前发明了世界上第一个可编程逻辑器件,尤以FPGA芯片著称。FPGA芯片被广泛用于手机、平板电脑等小型嵌入设备和数据中心的服务器中。相比英特尔所生产的传统芯片,这种芯片最大的不同在于可以根据不同场景进行重新编程,且运行速度高于常规微处理器。

    同时,高通也在推出软件工具来帮助客户使用移动芯片进行深度学习。Knupath和Nervana等创业公司则在重新设计全新的深度学习芯片。

    英特尔终于准备推出专为深度学习而设计的第一个芯片。这是一个新版本的Xeon Phi协处理器,它与英特尔的旗舰X86微处理器配合使用。英特尔的另一个大客户——百度的语音识别技术和深度学习团队负责人布莱恩·卡坦扎罗(Bryan Catanzaro)测试Xeon Phi协处理器之后,表示它可以像GPU那样有效处理大约90%的深度学习任务。布莱恩·卡坦扎罗是加州大学伯克利分校(UC Berkeley)的电气工程和计算机科学双料博士。他于2014年6月加入百度,带领一个15人的研发团队,探索语音识别领域,训练和部署深度神经网络的工具和方法。他去百度之前,还在英伟达工作了3年。

    但布莱恩·卡坦扎罗担心英特尔没有开发软件工具来帮助客户完善和维护神经网络,像英伟达(或高通)所提供的软件工具一样。作为客户,他不希望英伟达是唯一可行的选择。有趣的是,2016年9月,布莱恩·卡坦扎罗离开百度,重新加入英伟达,成为英伟达深度学习应用研究部门的副总裁。

    竞争对手英伟达建立了先发优势。当英特尔犹豫不定时,百度从英伟达购进的深度学习芯片的数量已经是向英特尔采购的4倍。不过,英特尔在这方面的财务损失有限。市场研究公司Tractica表示,亚马逊、谷歌和其他云服务巨头购买了价值1.33亿美元的芯片来运行深度学习系统。这是英特尔2015年560亿美元收入的一大亮点。

    说到底,成立半个世纪、看惯了前沿技术商业化过程中周期性表现的英特尔担心深度学习好景不长。人工智能有过疯狂的过去,当一种技术风潮的周期结束时,裸泳者比比皆是。不能因为只盯住了深度学习,就排除了其他发展人工智能的方法。英特尔首席执行官布莱恩·克赞尼奇(Brian Krzanich)判断,公司的未来取决于其在大型数据中心和物联网中的表现。

    英特尔的风格一向是务实。当然,谨慎是以速度为代价的。面对对手不断发布人工智能“定制”产品而带来的内部研发压力,英特尔需要用其他手段来化解市场焦虑,平衡公司战略。

    花了一年的时间,英特尔以167亿美元收购了Altera,展示了自己在人工智能领域战略布局的能力。收购完成后,英特尔可以将Xeon芯片和FPGA封装在一起,集成为一个芯片,尽可能以提升性能来应对客户不断增长的需求。这一收购表明,布莱恩·克赞尼奇计划利用公司巨大的制造规模和行业最先进的工艺技术来扩大市场份额,同时强化英特尔在数据中心和物联网市场的地位。

    2016年8月,英特尔以3.5亿美元收购了一家主攻深度学习的公司Nervana。这一次收购能够让英特尔获得深度学习的IP(知识产权)和具体产品,能够满足人工智能开发及数据中心对芯片的强大需求。Nervana的开发工具不仅可以支持Altera的FPGA的最优化,也可以支持GPU的开发。

    又过了一个月(2016年9月),英特尔宣布收购 Movidius。世界上最大的无人机制造商大疆在最新的Phantom 4中增加了Movidius制造的“视觉处理单元”。该芯片处理Phantom 4的摄像机所看到的事物的功能,使得无人机能够避免撞到飞行物。

    即使Movidius首席执行官Remi El-Ouazzane在不久之前公开称,感觉不到英特尔的热情,但他也算得很清楚:英特尔在银行里有150亿美元,而且,“他们不蠢”。

    依靠一系列并购,下一年(2017年),英特尔将保留“全球50大最聪明公司”的称号,并上升到榜单的第13位。

    拥有吴恩达的百度发力人工智能,在硅谷加速扩张。2015年,百度开发了语音识别系统“深度语音2”(Deep Speech 2)。深度语音2可以进行深度学习,它的语音识别能力甚至比人还强。深度语音2作为百度硅谷人工智能实验室(SVAIL)的研究成果,吴恩达认为,这证明了端对端深度学习方法可以被用于识别差别很大的语言。采用高性能计算技术导致了7倍的加速。“与一年前这个时候相比,需要几周才能完成的实验现在只需要几天。这使得迭代更快了。”百度成为2016年“全球50大最聪明公司”榜单的第2名。

    麻省理工学院于1964年研发的伊丽莎(Eliza)可能是最早的一批聊天机器人。伊丽莎扮演心理治疗师的角色,用一个简单的动作来吸引你的注意力:提出标准的问题,并经常在问题中引用对方的回答。

    排在2016年“全球50大最聪明公司”榜单第26位的微软除了在2015年赢得全球图像识别大赛(其研发的深度神经网络系统拥有152层虚拟神经元)之外,还试图将深度神经网络整合到Skype的服务中,以实现通话同步翻译。一下子,无数个聊天机器人出现在即时通信应用中,伴随着惊喜,也引发了期待。这些应用包括Kik、微信、Telegram和现在的Facebook Messenger。有些只是为了娱乐,但越来越多的人用它们做些有用的事情:可以预订航班,仔细阅读最新的高科技头条新闻,甚至通过向虚拟助手输入消息,从汉堡王购买汉堡。创业公司正在竞相提供工具,以加速这些虚拟管家的开发、管理和“货币化”。

    新一波聊天机器人热潮显然受到人工智能在图像和音频方面进步的激励,但在训练计算机处理和应对语言方面没有根本的突破。人类语言的复杂和微妙之处,仍然容易迷惑机器人。卡内基梅隆大学助理教授克里斯·戴尔(Chris Dyer)提醒,虽然对解析语言每几个月都会有令人兴奋的成果,但不要期待机器人马上可以处理一切,不论是法律咨询、医疗咨询和精神科咨询可能都是非常危险的。

    磨了很多年的剑之后,亚马逊依靠标价89.99美元的Echo Dot及其背后Alexa的语音服务排在2016年“全球50大最聪明公司”榜单的第1位。亚马逊日益强大的Alexa智能语音助手,使语音服务联结了消费者对上网、播放音乐、调节灯光和设定恒温器的需求。同时,网络及云计算服务也正在迅速发展并将成为亚马逊新的增长点。

    谷歌的母公司Alphabet也毫不意外地上榜了,排在2016年“全球50大最聪明公司”榜单的第8位。它的人工智能项目和无人驾驶技术均已名声大噪,尤其是阿尔法狗。

    自2014年起,阿尔法狗以英国棋友deepmind的名义开始在弈城围棋网上对弈。deepmind在2014年4月到2015年9月,棋力维持在七段到八段之间,总共下了300多盘棋。2015年9月16日其棋力首次升上九段,10月击败樊麾。

    2016年3月,通过自我对弈数以万计盘进行强化练习,阿尔法狗在一场五番棋比赛中以4:1击败顶尖职业棋手李世石,成为第一个不借助让子而击败围棋职业九段棋手的计算机围棋程序。五局赛后,韩国棋院授予阿尔法狗有史以来第一位“名誉职业九段”称号。

    战胜李世石之后,2016年12月29日至2017年1月4日,再度强化的阿尔法狗以“Master”为账号名称,在未公开其真实身份的情况下,借非正式的网络快棋对战进行测试,挑战中韩日的一流高手;测试结束时它60战全胜。在2017年5月23日至27日的乌镇围棋峰会上,最新的强化版阿尔法狗与世界第一棋手柯洁比试,并配合八段棋手协同作战,对决5位顶尖九段棋手,5场比赛获得3:0全胜的战绩,团队战与组队战也全胜。此次阿尔法狗利用谷歌TPU运行,加上快速进化的机器学习法,运算资源消耗仅占李世石版本的十分之一。在与柯洁的比赛结束后,中国围棋协会授予阿尔法狗职业围棋九段的称号。从业余棋手到无可置疑的世界第一,阿尔法狗只花了两年时间。

    眼看科大讯飞突起,没有大公司感觉安全

    人工智能已经成为席卷所有行业的流行时尚,而语音识别技术俨然已是一个成熟市场。根据国际市场研究公司Research and Markets 发布的《全球及中国语音产业报告,2015-2020》,虽然2013年的上榜公司Nuance在语音识别领域的市场份额仍位居第一,但其全球市场占有率已经从2014年的高达60%跌至31.1%。从Nuance手里“切走奶酪”的公司,分别是谷歌(20.7%)、苹果(13.4%)、微软(12.9%)、科大讯飞(6.7%)。而科大讯飞(Iflytek)在中国语音技术市场的占有率更是达到了70%。

    科大讯飞排在2017年“全球50大最聪明公司”榜单的第6位,其上榜理由为,该公司旗下的语音助理技术是中国版的Siri。科大讯飞的实时翻译技术则是杰出的人工智能应用,克服了方言、俚语和背景杂音等困难,可将汉语精准地翻译成十几种语言。有超过16万名开发者使用科大讯飞的软件,超过4亿消费者使用其产品。

    2016年,科大讯飞在多项与人工智能相关的国际比赛中胜出。其首次参加由谷歌承办的第四届国际语音识别大赛(CHi ME),就获得全部三项赛事的第一名并刷新历史纪录;首次参加国际知识图谱构建大赛(NIST TAC Knowledge Base Population Entity Discovery and Linkong Track),就包揽了赛事核心任务的冠亚军。其在国际认知智能测试(Winograd Schema Challenge)中也获得第一。

    科大讯飞脱颖而出,很大程度上得益于中国——这个规模大到不可思议的市场。在中国商业客户需求巨大且最终消费者乐于尝试的面部识别服务市场,排在2017年“全球50大最聪明公司”榜单第11位的旷视科技,其所开发的面部识别技术可以在人脸上追踪最多106个点位,获得了与众多最受欢迎的应用程序合作的机会。例如,在线支付平台支付宝应用了该技术,让用户可以使用他们的脸作为ID登录;共享出行软件滴滴出行使用它来验证平台自由职业者的身份;智能手机应用程序美图秀秀使用它来提供精准的照片修饰功能……这个5岁的初创公司被认为是第一个面部识别的“独角兽”,近年来至少募集了1.45亿美元资金,这其中包括在2016年12月募集的1亿美元。

    2017年,“全球50大最聪明公司”榜单中的12家公司的上榜理由的关键词是“人工智能”,上榜公司的总市值超过1.1万亿美元。人工智能的市场边界和竞争格局已经远远超出了科技公司和互联网公司,那些经历了多次技术革命和人类全球战争的传统公司也积极赶了上来。

    排在2017年“全球50大最聪明公司”榜单第40位的是通用电气(General Electric,GE)。通用电气的目标是,到2020年之前成为世界顶级的软件供应商;那一年,将有60000台喷气式发动机的数据会接入互联网,成为人工智能的分析对象。

    在2011年,通用电气就进行了初步探索:启动了一项10亿美元的计划,来收集和分析来自机器中的传感器数据。通用电气的下一步战略计划是通过人工智能创建更智能的模型,希望借此能比其长期竞争对手(如西门子)和软件巨头(如已经将业务伸展到工业分析的IBM)更具优势。该公司的大型服务性业务建立在监测现有产品之上,如飞机发动机、机车和燃气轮机。公司也一直专注于通过这些业务收集和分析数据。现在,上述这些数据系统中加入了人工智能,用于记录工厂状况并提前预测故障。

    这家125岁的公司在历史上曾无数次调整发展战略。这次,首席执行官约翰·弗兰纳里(John Flannery)再次改变公司的战略:利用复合型科学家将人工智能贯穿公司整个业务。

    通用电气在全球范围内拥有30万名员工,为了顺利完成整合,公司首先是培训技术精英。2011年,詹森·尼克尔斯(Jason Nichols)在完成加州大学伯克利分校有机化学博士学业后,加入通用电气全球研究中心,从事了4年的制造和研发用于工业废水处理的材料及系统。之后,他被调到公司的机器学习实验室,接着又开始研究增强现实技术。由于公司未来致力于将人工智能注入其机器和工业流程中,所以像詹森·尼克尔斯这样的复合型人才对公司未来的发展至关重要。詹森·尼克尔斯所在的通用电气全球研发中心开发了机器学习在线课程,以及可供科学家探索新角色的专题讨论会。截至目前,公司有近400名员工完成了通用电气数据分析认证项目,约有50名科学家与詹森·尼克尔斯一样调到数字分析岗位。

    这些双重角色科学家中的许多人,帮助制造了通用设备的云端软件模型,既节省了资金,也提高了用户使用的安全性。通用电气利用机器传感器收集的信息,辅以基于物理的模型、人工智能、数据分析以及科学家和工程师的知识,建立了“数字双胞胎”。虽然数字双胞胎主要是一行行软件代码,但是最精细的版本看起来像3D计算机辅助设计图,图中充满了交互式表格、图表和数据点。它们使通用电气能够利用传感器数据而非假设或估算数据来跟踪其飞机发动机、机车、燃气轮机和风力涡轮机的磨损,从而更容易预测何时需要维修。例如,在加利福尼亚州的通用电气计算机服务器上安装一对数字双胞胎,来帮助一架飞越美国的飞机发动机确定其零部件的最佳服务时间。

    除了预测机器的预期寿命外,虚拟模型还能优化产品的运营。通用电气表示,数字双胞胎能使风力发电厂的发电量增加20%,其中一部机车每年可减少32000加仑(约121000升)的燃料和17.4万吨碳排放量。截至2017年7月,通用电气已经向客户交付了70多万个模型。这项技术依靠的是人工智能的不断自我更新。例如,检测引擎的微型机器人只比一个火柴盒稍大一点。利用计算机视觉和各种人工智能技术,机器人可以通过在缓慢移动的风扇叶片上行驶来寻找飞机发动机内的裂纹。类似的技术可以装到无人机上,用于发现200英尺(约60.96米)高的火炬塔(油气厂用于燃烧多余油气的设施)上的腐蚀。

    为了开发和使用这些系统,通用电气的研究人员不仅需要了解机器的物理特性,还要了解人工智能的算法。通用电气全球研发中心的分析技术总监马克·葛莱伯(Mark Grabb)看好分子生物学家、机器学习专家、控制专家与材料科学家的协作,这将会非常强大。对于一个在从涡轮机、喷气发动机到机车等竞争性“红海”中寻找增长机会的传统公司来说,复合型科学家带动的人工智能发展,可能是通向未来的最佳交通工具。

    那些跟不上的科学家,就会被抛在后面。2016年,通用电气创建了100个与人工智能和机器人技术有关的研究工作;2017年1月,通用电气解雇了研究领域被认为与“数字工业”战略关系不大的研究人员。

    2017年,围绕更适应人工智能进化要求的计算,芯片业战况加剧。虽然排在2017年“全球50大最聪明公司”榜单第13位的英特尔在2017年3月推出了一系列新产品,增强了在人工智能领域的影响力,但英伟达的领先优势仍在扩大,其市值在两年中增加了近9倍,达到909亿美元。连对计算机如何工作一知半解的普通投资者也知道了这家芯片公司。这一年,英伟达的市值一度超过了高通——这个6年前黄仁勋公开指认的公司最直接的竞争对手。

    英伟达被评为 2017年“全球50大最聪明公司”榜单的第1名。虽然英伟达的主要收入仍然依靠图形处理器的销售,不过,它在人工智能软件处理能力上也取得了长足进步。据最新的季报显示,公司在数据中心和汽车领域的业务收入分别比2016年增长了186%和24%。

    其他在研发上艰苦积累多年的市场玩家也开始在更广泛的应用场景中看到了回报。

    开发者为Alexa开发的程序数已经达到12000个。2017年继续保持“全球50大最聪明公司”称号、位列该榜单第3位的亚马逊,正在创造由人工智能驱动的未来商店Amazon Go,并且正在将语音助手Alexa整合到手机、汽车以及更多的产品中。

    近年来,亚马逊使用了包括计算机视觉、机器学习和自然语言处理在内的一系列人工智能技术,彻底升级了移动计算能力并改善了消费者的购物体验。消费者可以通过该公司研发的语音助手Alexa控制电视、汽车等诸多物件,而且它有望在将来成为下一个重要的计算平台。

    此外,亚马逊还通过位于西雅图的亚马逊便利店简化线下购物体验。消费者进入商店,扫描智能手机上的应用程序,随后带着想买的物品离开便利店,即可完成购买过程。得益于人工智能技术,亚马逊可以使用相机和传感器来识别消费者选择的商品,并自动结算,无须排队结账。

    如同所有前沿技术的研发,对人工智能的持续投入离真正的现金牛业务还很远。雄心将时时面对挫败和重新出发。排在2017年“全球50大最聪明公司”榜单最后一位的百度虽然收入放缓,却依然不断向人工智能研究投入资金。2017年1月,百度与合作伙伴推出了一款与亚马逊的Alexa类似的、搭载了Duer OS的智能语音助手。

    百度在人工智能研究上投入了大量成本,能否将这些项目商业化还有待时间的检验,但中国政府选择了百度来领导中国的第一个国家级人工智能研究实验室。现在,百度有1700名专职从事与人工智能相关工作的员工——只是,吴恩达离开了。

    技术创新投资和财务回报的矛盾也摆在了排在2017年“全球50大最聪明公司”榜单第39位的IBM面前。IBM投资了一系列新兴技术,该公司认为这些技术将会为公司带来可持续的收益增长。尽管IBM多年来一直向投资者允诺其新业务(包括区块链、云计算和人工智能服务)带来的收入将达到2016年公司总收入的40%以上,但到2016年年底,IBM的销售量已经连续经历了16个季度的下降。

    IBM正在给自己挖下过度承诺的陷阱。沃森是其中最大的一个陷阱。2013年,IBM 声称“新的计算时代已经来临”,同时向《福布斯》杂志暗示沃森“已进入临床试验阶段”,将在短短几个月内投入使用。2015年,《华盛顿邮报》引用了一位 IBM 沃森经理的话,描述沃森如何忙着建立一个“沟通机器与人的集体智能模型”。《华盛顿邮报》还说,沃森系统会“和医生一起训练,去做他们做不到的事”。

    如今,IBM 公司的营业额低迷,股价波动,分析师们一直质疑沃森何时能为公司提供现金回报。资深技术投资者和风投公司Social Capital的创始人Chamath Palihapitiya 甚至在CNBC(美国消费者新闻和商业频道)上评论:“沃森就是个笑话。”

    从某种角度看,沃森是IBM赌上前程的机器学习系统,而它在IBM寄予厚望的医疗领域的进展差强人意。像坚持为孩子捕食的母兽,IBM将并购猎得的数据库用来喂食、训练自己的人工智能系统“沃森”。但IBM对市场和投资人的承诺中包括一个“沃森”实现商业回报的时间表,这个时间表能否如期实现还是未知数。

    和在单个商业应用领域投入的公司相比,把人工智能当成未来基础设施的一部分这一战略,使谷歌的母公司Alphabet成功地将下属一系列子公司打造成自动驾驶、虚拟现实和增强现实等领域的技术领先企业;人工智能的应用渗透到了所有这些公司,甚至还可以节能。通过使用旗下公司Deep Mind的机器学习算法来进行控制优化,数据中心的冷却系统节省了40%的能耗。Alphabet排在2017年“全球50大最聪明公司”榜单的第5位。

    Deep Mind不断开发新型人工智能系统来模仿人类智能,并提升学习速度。其自动驾驶项目 Waymo 的性能不断提升。作为 Alphabet 最知名且最大的子公司,谷歌与硬件制造商合作,为其Daydream VR平台创建独立的虚拟现实头显。新产品将内置处理器和显示器,不再依赖用户的智能手机,此外还会使用传感器以更好地追踪人类在虚拟世界的运动。

    还记得在2015年年初,谷歌的人工智能研究人员创造了Tensor Flow。两年之后,这一用于建立机器学习软件的工具支持了谷歌及其母公司Alphabet的未来愿景。Alphabet认为它可以通过帮助公司利用机器学习来抢占亚马逊的云计算市场。

    早在2015年,谷歌的人工智能专家就创建了一套名为Tensor Flow的软件,当时这款软件鲜为人知。借助 TensorFlow,公司的工程师们可以更容易地将新的人工智能方法翻译成实用代码;同时进一步提高搜索和语音识别服务的精确性。令人惊讶的是,在将TensorFlow开放给公司内部的程序员数月后,谷歌随即宣布该软件免费向全球开放。

    近两年过去后,这一机器学习平台成了谷歌和其母公司Alphabet的很多雄心壮志的基础。可以清晰地看到所谓人工智能“民主化”带来的好处——Tensor Flow成为程序员使用机器学习搭建新平台的首选工具。

    领导了TensorFlow设计工作的谷歌人工智能核心研究团队负责人杰夫·迪恩(Jeff Dean)表示,一旦程序员使用TensorFlow开发出新产品,他就可以在任何地方运行它;此外,将其转移到谷歌的云平台也非常容易。当前,云平台基础设施的市场份额约为400亿美元(且持续增长),亚马逊和微软占据了大半江山;谷歌目前位居第三,但与前两者还有很大的差距。谷歌云业务负责人戴安·格林(Diane Greene)则估计谷歌的市场份额在5年内会跃升至首位,而实现这一目标的假设前提是投资人工智能的公司会向云服务提供商砸下重金,从而让自身搭建和运行人工智能的成本更低,同时也更容易,就像他们需要向电子邮件和网站托管服务付费一样。

    来自保险业的客户安盛(AXA)也在使用与谷歌相同的基础设施,利用TensorFlow 来开发可预测保费高昂的交通事故的系统。谷歌表示,这就意味着更具竞争力的价格以及更好的表现。风险投资基金Madrona的总经理索马塞加(S.Somasegar)曾是微软开发部门的负责人,他表示,谷歌用了一个很好的策略改变了其在云服务领域落后的局面。TensorFlow就是这个策略的核心。

    TensorFlow当然不是唯一能搭建机器学习软件的工具。谷歌发布TensorFlow之后,它的云计算竞争者微软和亚马逊也不甘示弱,相继发布或开始支持它们自己的免费软件工具,来帮助程序员搭建机器学习系统。

    斯坦福大学客座教授雷扎·扎德(Reza Zadeh)最初使用一款名为 Caffe的工具来帮助自己的公司开发图像识别软件,但在接触并尝试了TensorFlow后,谷歌的品牌价值和技术优势使其最终决定完全放弃自己的平台。谷歌的工具也已经在下一代人工智能研发人员和创业者的头脑中扎下了根。在加拿大多伦多大学,人工智能研究中心已经培养了众多如今声名赫赫的领袖级专家。该大学的机器学习入门课程经常爆满,课程讲师Michael Guerzhoy负责讲授TensorFlow。因为,10年前他可能需要花费数月时间开发的系统,他的学生借助TensorFlow几天就能实现。

    在围棋之外的竞技领域,谷歌旗下的DeepMind在寻找新突破。2016年年底,暴雪宣布与DeepMind合作,让人工智能在《星际争霸》的游戏环境里进行特训。主导这项特训的是Oriol Vinyals 。Oriol Vinyals也是2016年MIT TR35 (《麻省理工科技评论》“35位35岁以下科技创新青年”)荣誉获得者之一。

    据报道,出生在巴塞罗那的 Oriol Vinyals在15 岁时就开始玩《星际争霸》,一度成为在西班牙排名第一、全欧洲排名第16的知名电竞玩家。Oriol Vinyals在加泰罗尼亚理工大学完成电信工程及数学双学位之后,前往美国攻读工程学及计算机科学,他也参与了 Berkeley Overmind 计划。Berkeley Overmind取名于《星际争霸》游戏中虫族的“主宰”(Overmind)角色。这项专案深入研究利用各种人工智能计算技术,开发一个懂得如何玩即时战略游戏的人工智能机器人。在 2010年的人工智能和互动数字娱乐(AIIDE)大会上,首次举办了《星际争霸》人工智能比赛;在完整游戏模式类别,Berkeley Overmind 拿下了冠军,一战成名。

    之后,Oriol Vinyals 进入了谷歌人工智能团队,负责为翻译系统打造新的技术。Oriol Vinyals 想实现的翻译是从像素到解释,他想让计算机能精准识别图像。基于这个想法,他更动了一行代码,用自己写的图像代码取代了先前的翻译程序。次日,他向计算机展示了一幅场景为热闹集市的图像,摊位旁边的地上放了很多香蕉。计算机识别为“一群人在市场买水果”。这代表着机器可以阅读复杂的图片。这项技术被应用在谷歌图像搜寻服务里。

    2016年1月,Oriol Vinyals 加入DeepMind,挑战比下围棋还难的人工智能——教计算机打游戏,不靠输入死板的编码规则,而是只让计算机通过经验自主学习。用来训练机器的游戏环境正是 Oriol Vinyals 最擅长的《星际争霸》。选择《星际争霸》最主要的原因是其更接近真实世界决策的复杂性。

    在阿尔法狗打败人类棋王之前,许多人不认为机器会获胜,但也有人觉得机器胜算大。同样的分歧也出现在游戏领域。2017年8月,Elon Musk 创立的人工智能非营利组织Open AI在一场电竞表演赛中以一对一的方式击败《Dota 2》的职业选手Dendi。

    最流行的人工智能技术都需要大量的数据来训练系统。排在2017年“全球50大最聪明公司”榜单第21位的Gamalon声称其概率编程算法的效率要比其他算法更高,该技术与其他机器学习技术效率之差可以达到100倍。Gamalon算法的特点是可以只从很少的算例中学习,还可以在iPad或笔记本电脑上运行,不需要昂贵的服务器和图形处理器。这家初创公司于2017年2月摆脱隐身模式后,目前正在帮助电子商务和制造公司结合与匹配不同来源的文本数据,如库存数据库。公司已经筹集了454万美元的种子资金,还与美国政府签订了770万美元的合同。

    更多的公司在2017年认识到,人工智能在用户基数越大的行业越有机会进行效率提升和产品创新。这些公司分别来自金融、医疗卫生、法律以及其他服务业。

    由阿里巴巴(位居2017年“全球50大最聪明公司”榜单的第41位)创建于2014年的“蚂蚁金服”公司,运营着快速增长的支付宝移动支付业务。该公司野心勃勃地进军全球,投资了印度、泰国、新加坡和美国的金融企业。该公司独自运营着中国过半的移动支付交易,每年的活跃用户超过4.5亿。相比之下,Apple Pay仅有大约1200万名用户。光凭这一点,就使蚂蚁金服在将人工智能引入到新产品中的成功概率大大提高。其中一项新产品是用机器学习处理智能手机上拍摄到的意外事故录像的保险索赔系统,这一系统可以确定损坏程度并协同保险公司处理索赔。

    排在2017年“全球50大最聪明公司”榜单第43位的蓝色棱镜(Blue Prism)是一家位于伦敦的英国上市公司。该公司的软件可以帮助银行和保险公司等企业使用人工智能去做办公室的文职工作。蓝色棱镜的机器人流程自动化软件模仿人类完成基于规则(rules-based)的任务的方式,例如手动将数据从纸质表单输入数据库。自2016年3月上市以来,该公司的市值上涨了10倍, 2017年达到5亿英镑。该公司在2016年全年所签署的合同数,是2015年的4倍多。

    Salesforce是一家位于美国旧金山的上市公司,排在2017年“全球50大最聪明公司”榜单的第47位。Salesforce及其销售平台2016年的年营收为84亿美元,在客户关系软件市场的份额为20%。该公司正在研究如何将人工智能融入其具有庞大用户基础的产品中,比如可以对文件进行总结的算法。公司预计,未来5年人工智能将改变人们的工作方式,并推动客户关系管理软件的发展。在2016年收购自然语言创业公司MetaMind之后,该公司于2017年推出了一种算法,展示了未来工作与生活方式可能的演化方向之一。它应用机器学习对文档进行总结,制作出了连贯而准确的概要;它还可以帮助整理电子邮件或当天的新闻报道。

    展望

    2018年2月1日,麻省理工学院正式宣布启动一项雄心勃勃的项目——MIT Intelligence Quest (MIT IQ)项目,该项目旨在了解人类智力,并利用研究成果开发智能机器,这是该校有史以来最大的人工智能项目,也被视为学术界发起的一场旨在人工智能领域赢回主动权、意义深远的努力,麻省理工学院更是动员了所有的五大学院,共同投入到这个项目中。

    除了麻省理工学院的校长L.Rafael Reif,项目的主要领导人也由麻省理工学院核心院系及实验室的负责人组成,包括工程学院院长Anantha Chandrakasan、麻省理工学院计算机科学与人工智能实验室主任Daniela Rus、电子工程和计算机科学系教授Dina Katabi、大脑与认知科学学院神经科学系主任 James Di Carlo、认知科学和计算科学教授Josh Tenenbaum 。

    人工智能技术的发展在不同国家、地区、企业与研究机构之间,围绕着战略格局、经济利益和学术荣誉,表现出日益浓重的决战气氛。一方面,市场对人工智能的需求与期待空前膨胀;另一方面,人工智能技术的发展亟待深度学习和强化学习之后新的理论突破。正如2018年1月28日上午,麻省理工学院计算机科学与人工智能实验室教授 Tomaso Poggio 在《麻省理工科技评论》EmTech China 全球新兴科技峰会上所说,深度学习可以帮助我们解决10%的难题,剩下的90%需要来自神经科学以及认知科学的研究,需要更好地了解人的思维和大脑。

    这应该也是谷歌母公司Alphabet会延请斯坦福大学前校长John Hennessy出任董事长的原因,以进一步加强对科研与人才源头的影响力。

    另一个值得注意的趋势是,中国公司在人工智能领域开始取得资本等生产要素的优势。例如,2017年,全球在人工智能领域的投资有152亿美元,其中中国企业所获得的投资额以48%的占比占据第一(美国企业占38%)。而2016年,中国企业所获得投资仅占全球人工智能总投资的不到12%。Broad研究所所长Eric Lander认为,美国在人工智能领域的优势只比中国领先半年。

    而像商汤科技这样的中国初创企业也已经被邀请加入MIT IQ的研究项目。

    * * *

    [1]. “Lizette Chapman Expect Labs Raises $13 Million for Anticipatory computing”, The Wall Street Journal, 2014-12-18.

    [2]. Mark White,“I wasn't interested in just following the rules: Data scientist Jeremy Howard and the next internet”, the Sydney Morning Herald,2016-5-29.

    [3]. “Movidius acquired by Intel”, Crunchbase, 2016-9-6.