万书网 > 心理哲学 > 麻省理工科技评论 > 2013年10大突破技术

2013年10大突破技术

    10 Breakthrough Technologies

    2013

    Deep Learning 深度学习

    被评为《麻省理工科技评论》2013年度10大突破技术之一的深度学习是人工智能的一个分支,利用多层人工神经网络,能从极大的数据量中学习,对未来做出预测,让机器变得更加聪明,已被运用在图像和语音识别、虚拟助手、生物医药、交通运输等诸多领域。此项技术近年来发展迅速,大公司和创业公司都趋之若鹜。2016年,谷歌的围棋软件利用深度学习击败了世界围棋冠军,成为人工智能的又一个里程碑。

    作者:罗伯特·霍夫(Robert D.Hof),汪婕舒

    插图:吉米·特里尔(Jimmy Turrel)

    突破技术

    人工智能的方法之一,可以推广到多种应用。

    为什么重要

    如果计算机能可靠地识别模式、做出关于这个世界的推论的话,它将为人类提供更有效得多的辅助。

    主要创新者

    -谷歌(Google)

    -微软(Microsoft)

    -IBM

    -Facebook

    -杰弗里·辛顿(Geoffrey Hinton),多伦多大学

    2012年7月,当雷·库兹韦尔(Ray Kurzweil)去见谷歌首席执行官拉里·佩奇(Larry Page)时,他没想找工作。库兹韦尔是受人尊敬的发明家,当时已成为机器智能领域里有名的预言家。他想和佩奇聊聊自己即将出版的新书《如何创造思维》(How to Create a Mind)。佩奇读过这本书的草稿。他对佩奇说,自己想开个公司,专研如何建造一台真正聪明的计算机:它不仅能理解语言,还能自行做出推断和决策。

    但他很快发现这件事需要大规模的数据量和计算能力,而这正是谷歌所拥有的资源。“我可以试着给你一些支持,”佩奇对他说,“但对一家独立的公司来说,做这件事会非常难。”佩奇建议他加入谷歌。库兹韦尔以前都是自己开公司,从没在其他公司干过。他没花很多时间就做出了决定:2013年1月,他成了谷歌的工程主管。他说:“这是我专注人工智能领域50年以来的顶峰。”

    吸引库兹韦尔的不只是谷歌的计算资源,还有该公司在人工智能中一个名为“深度学习”的分支所取得的惊人进展。深度学习软件试图模仿大脑新皮层中多层神经元的活动。皱巴巴的新皮层正是思维诞生之处,占大脑总重的80%。深度学习软件能够学习识别以数字化方式呈现的声音、图像等数据中的模式。这是实打实的“学习”。

    人工智能的进化

    这里涉及的基本方法是这种软件能在人工“神经网络”中模拟新皮层中的大量神经元阵列。这个创意已经存在数十年,它带来的失望和突破一样多。但是,得益于数学公式的改进和计算机的日益强大,计算机科学家们现在可以模拟比以往任何时候都更多层的虚拟神经元。

    有了这种更深入的能力,科学家们在语音和图像识别上取得了显著的进展。2012年6月,谷歌给它的深度学习系统展示了1 000 万张来自YouTube 视频的图片,让它识别物体(例如猫),结果显示其识别效果比之前的类似系统提升了差不多一倍。谷歌也用这种技术来降低安卓手机软件中语音识别的错误率。2012年10月,微软首席研究官里克·拉希德(Rick Rashid)在中国演讲时展示了一款语音识别软件,引发了观众的赞叹。这款软件把他说的话转录成英文文本,错误率仅7%,之后再将文本翻译成中文,并且模拟他的声音以普通话读出来。同月,由三个研究生和两位教授组成的一个团队在默克公司举办的竞赛中获胜,竞赛内容是识别导向新药物开发的分子。这个团队采用深度学习技术瞄准了那些最可能符合他们目标的分子。

    谷歌尤其成了吸引深度学习和人工智能人才的磁石。2013年3月,谷歌收购了一家创业公司。多伦多大学的计算机科学教授杰弗里·欣顿(Geofrey Hinton)是该公司的联合创始人,也是赢得默克公司那场比赛的团队成员。欣顿兼顾大学和谷歌的工作,他说自己计划“把这一领域中的创见应用到真正的问题上”,比如图像识别、搜索和自然语言理解。2014年,谷歌又收购了一家用深度学习来教计算机玩游戏的英国创业公司DeepMind——那时候谁也想不到,这家公司两年后用深度学习颠覆了全世界对人工智能的认知。

    所有这些进展让一贯谨慎的人工智能科研人员充满了希望:智能机器终于不再停留在科幻小说中。确实,从通信、计算,到医药、制造、交通运输和金融,机器智能正开始改变一切。IBM 的计算机“沃森”在《危险边缘》节目中的胜利彰显了这种可能性。“沃森”使用了一些深度学习技术,目前正在接受训练,帮助医生做出更好的决策,例如更准确地识别恶性肿瘤。微软已经在Windows Phone 系统、必应语音搜索和聊天机器人小冰[1] 中运用了深度学习技术。Facebook也在使用深度学习技术来分析社交网络和识别照片中的人脸[13] 。eBay的研究者用其来识别和分类商品。加州大学的研究者则用这种技术来帮助无人驾驶汽车探测路上的行人[2] 。

    要将深度学习扩展到语音和图像识别之外的应用上,需要更多概念和软件上的突破,当然还有处理能力上的更大进步。可能在很多年内,我们都不会看到大家公认的能自行思考的机器,也许数十年内都看不到——如果不是永远的话。但正如美国微软研究院的负责人彼得·李(Peter Lee)所说:“深度学习让人工智能领域中的一些重大挑战重新成为人们关注的焦点。”

    造出个大脑

    如何应对这些挑战呢?目前已经出现了许多不同的方法。其中一种方法是给计算机灌输有关世界的信息和规则。这需要程序员辛苦地编写软件来让计算机熟悉那些属性,比如一条边或一个声音的特征。这需要耗费大量的时间,而系统仍然无法处理模糊的数据。这些系统仅能用于狭隘的、受控制的应用,比如要求你说出特定词汇才能进行查询的手机菜单系统。

    神经网络的研究始于人工智能刚起步不久的20 世纪50年代。这种方法看起来前途十分光明,因为它试图模拟大脑的工作方式——虽然做了极大的简化。程序绘制出一组虚拟神经元,然后给它们之间的连接分配随机数值或称“权重”。这些权重确定了每个模拟神经元对数字化特征的响应,并以0到1之间的值来表示。数字化特征包括图像中的一条边或某种蓝色,或者某种音素频率的能量水平(音素是语言音节中声音的最小单位)。

    程序员会用包含了某些对象的数字化图像或包含了某些音素的声波来集中冲击这个神经网络,以此训练它识别这个对象或音素的能力。如果网络没能准确地识别出特定模式,算法就会调整权重。这种训练的最终目标是让神经网络能够一以贯之地识别出语音或一组图像中的模式,而这种模式是我们人类熟知的——比如说音素“d”或一只狗的形象。这很像孩子们学习“什么是狗”的方式:观察它头部形状的细节、它的行为,以及这种别人称之为“狗”的毛茸茸、会汪汪叫的动物的其他特征。

    但是早期的神经网络只能模拟为数不多的神经元,所以不能识别太复杂的模式。这种方法在20 世纪70年代陷入了沉寂。

    在20 世纪80年代中期,欣顿等人用所谓的“深度”模型重新激发了人们对神经网络的兴趣。这种模型能更好地利用许多层的软件神经元,但是该技术仍需要大量的人力参与:程序员在把数据输入神经网络之前,需要给数据加上标签。而且复杂的语音或图像识别需要更多的计算能力,这在当时还不具备。不过,在过去十年中,欣顿和其他研究人员最终取得了一些基本概念上的突破。2006年,欣顿开发了一种更有效的方式来训练多层神经元。第一层神经元学习初级特征,例如分辨图像边缘或语音中的最小单元,方法是找到那些比随机分布出现得更多的数字化像素或声波的组合。一旦这一层神经元准确地识别了这些特征,数据就会被输送到下一层,并自我训练以识别更复杂的特征,例如语音的组合或者图像中的一个角。这一过程会逐层重复,直到系统能够可靠地识别出音素或物体为止。

    以猫为例。2012年6月,谷歌展示了当时最大的神经网络之一,拥有超过10 亿个连接(当今最大的神经网络当属美国公司Digital Reasoning于2015年公布的神经网络,包括1 600亿个参数[3] )。由斯坦福大学计算机科学教授吴恩达(Andrew Ng)和谷歌研究员杰夫·迪安(Jef Dean)带领的团队给这个系统展示了1 000万张从YouTubu 视频中随机选择的图片。软件模型中的一个模拟神经元专门识别猫的图像,其他神经元专注于人脸、黄色的花朵及其他物体。凭借深度学习的能力,系统识别出了这些相互独立的对象,即使没人对它们进行过精确的解释或标记。图像识别能力的提升幅度让一些人工智能专家感到震惊。这个系统对YouTube图像中物体和主题的分类准确率达到了16%。这听起来可能没什么大不了,但比之前的方法要好70%。迪安指出,让系统选择的类别多达22 000个;要正确地把物体放到某些类别中,即使对大多数人来说也具有挑战性——例如区别两种相似的鳐鱼。当图像减少到1 000 多个更宽泛的类别时,系统的准确率跃升到超过50%。

    大数据

    该实验中对多层虚拟神经元的训练用到了16 000个计算机处理器,相当于Google为其搜索引擎和其他服务开发的计算基础设施规模。机器学习创业公司Vicarious 的联合创始人迪利普·乔治(Dileep George)认为,在人工智能研究的最新进展中,至少有80%可以归因到更强大的计算能力。

    但是,除了谷歌数据中心的规模,还有一些其他因素。深度学习技术也得益于谷歌在多台机器之间分配计算任务的方法,这极大地提高了计算速度。在谷歌工作了14年的迪安帮助开发了这项技术。它也让深度学习神经网络的训练大幅提速,使谷歌可以运行更大型的神经网络,并给它们输入多得多的数据。

    谷歌收购“DeepMind Technologies”,这是一家位于伦敦的小型创业公司。其专业领域为深度学习,是时下最前沿的人工智能技术,旨在实现图像识别和语音识别。

    深度学习已经改善了智能手机上的语音搜索功能。直到2012年,谷歌安卓系统上的软件还会听错许多词,但2012年7月,该公司为一个新版本安卓的发布做准备时,在迪安及其团队的帮助下,用基于深度学习的技术替换了语音识别系统的一部分。多层神经元能够对声音的诸多变化进行更精确的识别训练,所以该系统可以更可靠地识别声音片段,尤其是在地铁站台这种嘈杂的环境中。因为系统听懂对话的能力提升了,结果的准确性也提高了。几乎在一夜之间,错误量减少了25%。这个结果如此之好,以至于当时的许多评论人士认为安卓的语音搜索功能比苹果的Siri 语音助手更聪明——虽然Siri 更出名(2015年10月,苹果收购了一家英国深度学习公司VocallQ,旨在让Siri变得更聪明[4] )。到了2013年,安卓系统语音识别的错误率减少到23%;到2015年5月,这一数值已降低到8%。[5]

    谷歌的搜索引擎、无人驾驶汽车等也都依赖于深度学习。他们还用深度学习从每段YouTube视频中截取最吸引人的画面作为缩略图。2015年底,谷歌还发布了一个基于深度学习的软件Smart Reply,可以帮你回复简短的邮件[6] 。

    除了谷歌,还有许多公司也正在将深度学习运用在各行各业。英国MAN AHL基金正在探索深度学习在金融方面的应用。波士顿丹那法伯癌症研究所的科学家用深度学习研究病人的肿瘤图像,以预测结果。北卡罗来纳大学教堂山分校的研究者用深度学习算法来搜寻有用的药物分子。2015年,加拿大创业公司Atomwise利用深度学习来加速药物的研发过程,仅用了短短4个月时间就研发出了一款能极大降低埃博拉病毒感染率的新药物,目前已进入临床实验阶段[7] 。

    2016年3月,就在人工智能的发展如火如荼之时,谷歌再次用深度学习轰动了全世界。谷歌旗下的人工智能公司DeepMind将深度学习、强化学习和蒙特卡洛树搜索等方法相融合,开发了一个叫作AlphaGo的围棋程序。一直以来,围棋都被认为是人工智能无法翻越的高峰。这是因为,与象棋不同,围棋的可能性走法比整个宇宙的原子数量还多。2015年10月,AlphaGo战胜了欧洲围棋冠军樊晖,成为第一个无需让子即在19路棋盘上击败职业棋手的电脑程序。此消息在2016年1月一经公布,立即受到全世界瞩目。AlphaGo继而向来自韩国的世界围棋冠军李世石挑战。李世石原本并不在意,谁知在3月的对弈中,竟以1:4惨败。赛后,韩国棋院授予AlphaGo为有史以来第一位名誉职业九段。这次对战在全球互联网上引起了强烈的关注,引发了人们对于人工智能的大讨论。有人称这是深度学习的胜利,但谁说这不是人类的胜利呢?

    DeepMind还将用类似的方法继续探索扑克牌、随机迷宫和电子游戏《星际争霸》。他们目前还与谷歌的其他部门合作,改善虚拟助手和包括YouTube在内的推荐系统,同时还与英国国民保健署一起,训练软件来识别容易忽略的肾脏问题。

    批评

    尽管有了这么多的进展,但并非每个人都认为深度学习能把人工智能变成某种能与人类智慧相匹敌的东西。主要的批评者认为,深度学习像一个黑盒子,无从得知其中发生了什么,经验过多,理论不足。还有一些人认为,深度学习和人工智能总体而言忽略了大脑的生物学特征,而更倾向于蛮力计算。

    持这种观点的批评家之一是杰夫·霍金斯(Jef Hawkins),Palm 计算公司的创始人。霍金斯最新创建的企业Numenta 正在研发机器学习系统,其灵感来自于生物学,并不使用深度学习技术。Numenta 的系统可以帮助预测能源消耗模式,以及风车之类的机器即将发生故障的可能性。霍金斯在2004年出版了《人工智能的未来》(On Intelligence)一书,介绍了大脑是如何工作的,以及这种原理将可能如何指导建造智能机器。他认为,大脑处理感官数据流,人类的学习依赖于我们回忆模式序列的能力:当你看到视频中的猫正在做些有趣的事时,重要的是其动态,而不是谷歌在实验中使用的一系列静止图像。“谷歌的态度是大量数据解决一切。”霍金斯说。

    但是,就算数据不能解决一切,像谷歌这样的公司在这些问题上投入的计算资源也不能被忽视。深度学习的倡导者认为,这些资源是至关重要的,因为大脑本身仍然比今天的任何神经网络都复杂得多。“你需要大量的计算资源来让设想有所实现。”欣顿说。

    还有的研究者认为贝叶斯式的学习方法优于深度学习,因为他们认为这符合人类学习的方式,而且不需要那么多数据来训练。2015年12月,来自麻省理工学院、纽约大学和多伦多大学的三名研究者在《科学》杂志上发表封面论文,阐述了一种“只看一眼就会写字”的计算机系统,采用了贝叶斯式的方法,仅用少量的例子就能让计算机学习到字体的本质特征,并声称在某些方面比深度学习表现得更好。欣顿认为,这种方法若能与深度学习相结合,一定能有更大的提升——在数据量巨大但较混乱的情况下,让深度学习发挥优势;而在数据量少而清晰的情况下,贝叶斯学习占据上风。

    还有一些“强人工智能”的支持者认为,仅靠深度学习无法实现真正的人工智能。纽约大学心理学教授盖瑞·马库斯(Gary Marcus)在《纽约客》上撰文说,深度学习缺乏因果关系的表达,也无法进行逻辑推理,因此不能形成抽象的知识[8] 。作为纽约大学婴儿语言中心的主任,他认为实现人工智能的路径不在深度学习中,而是藏在人类儿童的学习模式中。

    展望

    虽然谷歌在未来应用上尚未达到唾手可得的阶段,但前景引人入胜。比方说,更好的图像搜索显然对YouTube 有利。迪安说,深度学习模型能够使用英语音素数据来更快地训练系统识别其他语言的语音。更复杂的图像识别也可能让谷歌的自动驾驶汽车变得更好。如今,利用了深度学习技术的谷歌自动驾驶汽车已经安全地行驶在加州等地区[9] ,并计划在2020年向公众出售[10] 。还有谷歌的搜索引擎和支撑搜索引擎服务的广告。任何技术若能更好更快地识别用户真正在找什么——甚至是在用户自己意识到之前——都会给这两者带来极大的改进。

    正是这些前景吸引了库兹韦尔。时年65 岁的他对智能机器的期望由来已久。上高中时,他写了一个软件,能让计算机创作各种经典风格的原创音乐。1965年他在电视节目《我有一个秘密》中展示了这款软件。从那时起,他发明出了好几个第一:印刷品朗读机、能扫描任何打印字体并将其数字化的软件、能重现管弦乐队合奏的音乐合成器,以及一个词汇量庞大的语音识别系统。

    现在,他设想了一个“电子朋友”,它能倾听你的电话聊天,阅读你的电子邮件,追踪你的一举一动——当然,是在你允许的情况下。所以,这个朋友甚至可以在你发问前就告诉你想知道的事。这不是他在谷歌工作的近期目标,但它符合谷歌联合创始人谢尔盖·布林(Sergey Brin)的愿景。布林在公司早期曾说想建造一台有感知能力的计算机,就像电影《2001 太空漫游》里的HAL那样,只不过这部机器不会杀人。

    DeepMind的员工在首尔

    库兹韦尔目前的目标是帮助计算机理解自然语言,甚至用自然语言说话。他说:“我的任务是让电脑对自然语言有足够的理解,以此来做些有用的事——更好地搜索,更好地回答问题。”从实质上讲,他希望创造一个IBM 沃森的更灵活版本。他钦佩沃森在《危险边缘》中表现出的理解力,它能应付像“一个上面有泡沫的馅饼发表的很长的、无聊的讲话”这样古怪的查询。沃森的正确答案是:“什么是蛋白酥的夸夸其谈?(”What is a meringue harangue)(译者注:在该节目中,参赛者要根据以答案形式提供的各种线索,以问题的形式作答。以上这个问题出现在该节目的“押韵时间”:答案中的两个词要押韵,也就是meringue和harangue)。

    相应地,这将需要更全面的方式来把句子的含义图形化。谷歌已经在机器翻译中使用这种分析方法来提升语法的准确率。自然语言理解也需要电脑搞明白那些我们人类视为常识的内容。为此,库兹韦尔将利用谷歌开发的“知识图谱”。当时,这个目录有7亿个主题、地点、人物等内容,它们之间的关联多达几十亿。这个工具在2012年发布,它为搜索者的查询提供答案,而不仅仅是链接。

    库兹韦尔计划采用深度学习算法来帮助计算机处理“语言中模糊的边界和模棱两可之处”。听起来有点吓人吧?事实确实如此。“自然语言理解并不是一个会完成于某个时刻的目标,”他说,“我不认为我有朝一日能完成这个项目。”

    库兹韦尔的展望仍需要很多年才能成真,但深度学习早已超越了语音和图像识别的范畴,例如在新药研发方面。在默克公司的竞赛中,欣顿的团队出人意料地突围而出,清楚地表明了深度学习在那些少有人想到的领域中也能发挥作用。

    这还不是全部。微软的彼得·李说,早期研究显示,将深度学习运用到机器视觉方面的前景颇佳。“机器视觉”在工业检测和机器人引导之类的应用中使用成像技术。他的设想还包括让深层神经网络使用个人传感器来预测健康问题。事实上,这样的应用近年来层出不穷。2016年3月,《华尔街日报》就报道了一个名叫Cardiogram的苹果手表应用,采用深度学习来监测心房颤动。他们收集了20名确诊为心房颤动的病人数据以及10 000名普通人的5亿个数据点来训练算法,目前的准确率已经能达到九成[11] 。另外,遍布城市的传感器也可以给深度学习系统提供信息,做出诸如哪里可能发生交通堵塞的预测。2015年,中科院的王飞跃和吕宜生等在《IEEE智能交通系统》上发表论文,用深度学习分析了加州高速公路上15 000个传感器所收集的数据,对交通流量做出了很好的预测。[12]

    不可避免地,在试图模拟如人类大脑般深刻东西的领域中,单单一种技术不会解决所有的挑战。但现在,这种技术在人工智能领域中走在前列。迪安说:“深度学习,是了解世界的一种真正强大的隐喻。”

    专家点评

    杨铭

    清华大学硕士,美国西北大学博士。地平线机器人联合创始人&软件副总裁,前Facebook AI Research的创始成员之一。专注于机器学习和计算机视觉领域的研究和工程应用,发表的学术论文被引用3 100多次,拥有14项美国专利;在Facebook工作期间负责的深度学习研发项目DeepFace在业界产生重大影响。

    深度学习,在某种意义上是深层人工神经网络的重命名,从2006年开始在Geoffrey Hinton、Yann LeCun(燕乐存)、Yoshua Bengio、Andrew Ng(吴恩达)等教授以及学术、工业界很多研究人员的推动下重新兴起,并在语音(2010年)和图像(2012年)识别领域取得重大技术突破。深度学习具有灵活通用的建模能力和快速有效的训练算法,这使得以数据驱动的方式解决复杂模式识别问题成为可能。正如文中所讲,大数据和并行计算的发展,也有效地促进了深度学习算法的应用和演化。最新的深度学习算法采用序列模型(sequence learning/RNN/LSTM)、记忆网络(memory networks)、注意力模型(attention model),并和增强学习(reinforcement learning)结合,爆发式地应用于视频分析、工业制造、数字助理、自主驾驶、机器人、健康医疗等诸多领域。

    深度学习的快速发展不仅吸引了互联网公司如微软、谷歌、百度、脸书等的大力投入,近一两年来,半导体硬件公司英伟达、高通、ARM、英特尔等也开始研发适合人工神经网络运算的芯片和硬件设备,同时也涌现出越来越多的创业公司致力于推进深度学习的技术研发和产业化。但正如清华大学计算机系张钹院士近日所指出的,人工智能和深度学习还存在“可解决问题的限制”和“已有方法的局限性”的挑战。实际上技术的发展突破知易行难,需要很多研究人员多年持续的试错和积累;同时商业化上也需要“缩短学术与技术、技术与应用之间的距离”,摸索任重道远。1907年的《绿野仙踪》中就描述了铁皮人是“能完美会话的机器人,它能思考、说话、行动,以及做一切事情,除了活着”。深度学习让我们期待这样的“铁皮人”有朝一日真的能够出现于现实之中。