万书网 > 心理哲学 > AI的25种可能 > 自下而上的深度学习

自下而上的深度学习




20世纪80年代,计算机科学家发明了一种巧妙的方法,可以让计算机检测到数据中的模式,这种方法就是连接主义,或称神经网络(“神经”过去是,现在仍然是隐喻性的)。这种方法在90年代陷入低谷,但最近谷歌的DeepMind等强大的深度学习方法又使其复兴。

例如,你可以给一个深度学习程序输入一堆网络图片,上面标记着“猫”,另一堆图片标记着“房子”。该程序可以检测区分这两组图像的模式,并使用这些信息正确标记新图像。一些被称为无监督学习的机器学习可以检测数据中完全没有标签的模式,它们只是寻找一组特性,科学家称之为因子分析。在深度学习机器中,这些过程在不同的层次上重复。有些程序甚至可以从像素或声音的原始数据中发现相关的特征;计算机可能首先检测与边和线相对应的原始图像中的模式,然后在与面相对应的模式中找到这些模式,等等。

另一个历史悠久的自下而上的技术是强化学习。20世纪50年代,在约翰·华生的研究基础上,斯金纳设计出著名的步骤,让鸽子完成精心设计的行动,甚至通过给它们一个特定的奖惩表,还能让它们引导空射导弹到达目标。这项技术最基本的想法是,受到奖励的行为会不断重复,而被惩罚的行为则不会再出现,直到达到所期望的行为。即使在斯金纳的时代,这个反复重复的简单过程也能带来复杂的行为。计算机被设计成反复执行简单操作,这种操作的规模是人类无法想象的,最终计算系统可以用这种方式学习非常复杂的技能。

例如,谷歌DeepMind的研究人员将深度学习和强化学习两种方法相结合,教计算机玩雅达利电子游戏。计算机对游戏的工作原理一无所知。它先是胡乱地玩,然后得到信息,知道每个时刻屏幕上显示出什么和得分情况。深度学习有助于破解屏幕上的特征,强化学习使获得更高分数的系统得到奖励。计算机很擅长玩其中的几款游戏,但也有几款游戏它完全不行,而人类却能很容易掌握。

通过将深度学习和强化学习做类似组合,DeepMind的阿尔法零获得了成功。阿尔法零是一个程序,在国际象棋和围棋中都击败了人类玩家,它只具备游戏规则的基本知识和一些计划能力。阿尔法零还有另一个有趣的特性:它的工作方式就是和自己玩数亿次游戏。当它这样工作时,它会删减导致失败的错误,重复并详细阐述带来胜利的策略。这类系统以及其他涉及“生成对抗网络”的技术系统,既能生成数据,也能生成观测数据。

当你有计算能力将这些技术应用于非常庞大的数据集或数百万电子邮件、图像或语音记录时,你就可以解决以前看起来非常困难的问题。这是计算机科学中令人激动的一个源泉。但是值得记住的是,这些问题,比如识别一个图像是只猫,或者一个口语单词是“siri”,对于一个蹒跚学步的人类小孩来说是微不足道的。计算机科学最有趣的一个发现是,对我们来说非常容易的问题,比如识别猫,对计算机来说却比下国际象棋或围棋要困难得多。要想分类对象,计算机需要数以百万计的例子,而我们只需要几个例子就可以分类。这些自下而上的系统可以概括出新的例子,它们可以非常准确地将新图像标记为“猫”。但它们的做法与人类的概括方式大相径庭。有些图像几乎与猫的图像完全相同,但我们根本不会认为它是猫。其他的虽然看起来像是随机模糊的,但我们却能认出它就是猫。



自上而下的贝叶斯模型


自上而下的方法在早期人工智能研究中发挥了重要作用,在21世纪最初的10年,它以概率或贝叶斯生成模型的形式,再次发挥出重要作用。

早期使用这种方法时面临两个问题。首先,大多数的证据模式原则上可以用许多不同的假设来解释:我的杂志电子邮件可能是真的,只是看起来不太像。其次,生成模型使用的概念最初来自哪里?柏拉图和乔姆斯基说你生来就有这些概念。但是又如何解释我们是怎样学习最新的科学概念呢?如何解释连小孩子都知道恐龙和火箭船?

贝叶斯模型将生成模型和假设检验与概率论相结合,解决了这两个问题。贝叶斯模型可以让你在给定数据的情况下,计算出一个特定假设为真的可能性有多大。通过对已有的模型进行微小而系统的调整,并根据数据对其进行测试,我们可以从旧的模型中创建新的概念和模型。虽然有这些优势,但同时也出现了其他问题。贝叶斯技术可以帮助你从两个假设中选择出可能性更大的一个,但可能假设的数量非常巨大,没有一个系统能够有效地考虑到所有的假设。而且在最开始,你如何决定哪些假设值得测试?

纽约大学的布伦登·莱克(Brenden  Lake)和同事们用这种自上而下的方法来解决另一个问题,这个问题对人类来说不算个问题,但对计算机来说却非常困难,那就是识别不熟悉的手写字符。看看日文卷轴上的一个字符。即使你以前从未见过,你也很可能能够看出它与另一本日本卷轴上的一个字符是相似还是不同。你可能还会画出来,甚至根据你看到的日本字来设计一个假的日本字——一个看起来与韩文或俄文字符截然不同的假日本字。(39)

用自下而上的方法识别手写字符,就是给计算机输入每一个字符的上千个例子,让它找出明显的特征。但与此相反,莱克等人却给程序提供了一个关于如何书写字符的通用模型:一个笔画是向右还是向左;完成一个笔画后,开始另一个笔画;以此类推。当程序看到一个特定的字符,它就可以推断出这个字最有可能的笔画顺序,正如我根据垃圾邮件制造过程推断出我的电子邮件很可疑一样。然后,它可以判断出一个新字符是按照那个顺序还是按照另一个顺序写的,它自己还能创造出一组相似的笔画。与输入完全相同数据的深度学习程序相比,这个程序要好得多,它更细致地反映出人类的表现。

这两种机器学习方法优缺点互补。在自下而上的方法中,开始时程序不需要太多的知识,但是需要大量的数据,而且它归纳总结的方法有限。在自上向下的方法中,程序可以从几个示例中学习,进行更广泛、更多样化的归纳,但是开始时你需要在其中构建更多的内容。许多研究者目前正试图将这两种方法结合起来,使用深度学习来实现贝叶斯推理。

人工智能最近的成功在一定程度上是因为扩展了这些旧思想。但除了这个事实,还有更多原因:因为有了互联网,我们有了更多的数据;因为有了摩尔定律,我们有了更多的计算能力来应用于这些数据。此外,还有一个被忽略的事实是,我们所拥有的数据已经被人类分类、处理。发布到网络上的“猫”的图片是典型的猫图片,是人类已经认定为“好”的图片。谷歌翻译之所以能成功,是因为它利用了数以百万计的人工翻译,将它们推广到新的文本片段,而不是真正理解句子本身。

而人类小孩真正值得注意的却是,他们能把每种方法的最佳特性组合在一起,然后获得比这些方法都好的方法。我们也不知道他们是怎么做到的。在过去的15年里,发展主义者一直在探索儿童从数据中学习结构的方法。4岁的孩子可以通过只举一两个数据例子来学习,就像自上而下的系统一样,还能归纳出完全不同的概念。但是他们也可以从数据本身学习新概念和模型,就像自下而上的系统一样。

例如,在我们的实验室里,我们给孩子们一个“blicket探测器”,这是一个新机器,他们从未见过,他们需要弄清楚这是什么。它是一个盒子,当你把特定的物体而不是其他物体放在上面时,它会发光并播放音乐。我们只给孩子们举了一两个机器工作原理的例子,告诉他们,两个红色的方块可以使机器运转,而绿黄的组合则不行。即使是18个月大的孩子也会立刻明白这个一般原理,即两个物体必须相同才能使机器运转,他们把这一原理推广到新的例子中:例如,他们选择两个形状相同的物体使机器工作。在其他的实验中,我们已经发现,孩子们甚至可以意识到,有一些隐藏的无形属性使机器运转,或者机器按照一些抽象的逻辑原理进行工作。(40)

你也可以在孩子们的日常学习中发现这一点。幼儿快速地学习生物学、物理学和心理学的抽象直觉理论,这与成年科学家的学习方式非常相似,即使幼儿手中的数据相对更少。

无论是自下而上还是自上而下方法,最新的人工智能系统在机器学习方面都取得了显著成就,但这些成就发生在一个狭小且定义明确的假设和概念空间,如一组精确的游戏片段和动作,或一组预先确定的图像。与此相反,儿童和科学家有时会很激进地改变他们的概念,进行范式转换,而不是简单地调整他们已有的概念。

4岁的孩子不仅能立即认出猫,能理解单词,还能创造性地、令人惊讶地得出远远超出他们经验的新推论。例如,我自己的孙子最近解释说,如果一个成年人想再次变成小孩,他应该尽量不吃任何健康的蔬菜,因为健康的蔬菜会使一个孩子长大成人。这种假设,这种成年人不会觉得好玩的可能假设,具有小孩子的特点。事实上,我和同事都系统地证明过,学龄前儿童比大孩子和成年人更善于提出不太可能的假设。(41)对于孩子们怎么会有这种创造性学习和创新能力,我们几乎一无所知。

然而,看看孩子们的行为,这可能会给程序员提供一些有关计算机学习方向的有用提示。关于儿童学习,有两个特别显著的特点。第一点,孩子们是积极的学习者,他们不必像人工智能一样被动地吸收数据。正如科学家的实验表明的那样,本质上孩子们有学习动机,能通过无休止的玩耍和探索从他们周围的世界中获取信息。最近的研究表明,这种探索比表面上看起来的更系统,能更好地适应环境,更能寻找有说服力的证据来形成假设、选择理论。(42)将好奇心构建到机器中并允许它们与世界积极互动,可能是一种更现实和更广泛的学习途径。

第二点,与现有的人工智能不同,儿童是社会和文化学习者。人类不是孤立地学习,而是利用过去几代人积累的智慧。最近的研究表明,即使是学龄前儿童也能通过模仿和聆听他人的话语来学习。但他们不只是被动地服从老师。相反,他们以一种非常微妙和敏感的方式从他人那里获取信息,对信息的来源和可信程度做出复杂的推断,并系统地将自己的经验与听到的内容结合起来。(43)

“人工智能”和“机器学习”听起来很可怕。在某些方面它们确实很可怕。例如,我们利用这些系统来控制武器,对此我们真应该感到害怕。然而,自然的愚蠢比人工智能造成的破坏要大得多;我们人类需要比过去更加聪明,才能正确地管理新技术。但对于人工智能取代人类,会带来世界末日还是乌托邦的远景,我们目前并没有太多的依据。没有解决学习的基本矛盾之前,最好的人工智能也无法与普通的4岁小孩匹敌。



By  now,  the  legal,  ethical,  formal,  and  economic  dimensions  of  algorithms  are  all  quasi-infinite.

到目前为止,算法的法律、伦理、形式和经济尺度都是准无限的。

彼得·加里森

Peter  Galison

彼得·加里森是一位科学史学家,哈佛大学约瑟夫·佩莱格里诺校级教授、“黑洞计划”共同创始人,著有《爱因斯坦的时钟与庞加莱的地图:时间帝国》(Einstein's  Clock  and  Poincaré's  Maps:  Empires  of  Time)。



布罗克曼谈彼得·加里森

彼得·加里森作为一名科学史学家,他的关注点大致上是在理论与实验的交叉点上。

“很多年来,抽象思想和极其具体的事物之间的奇怪对峙一直引导我的工作方向。”解释他如何看待自己从事的研究时,他曾经这样说。在康涅狄格州华盛顿会议上,他讨论了维纳等工程师和奥本海默等曼哈顿项目管理者之间的紧张关系:“当维纳对控制论的危险发出警告时,有一部分原因是因为他试图与奥本海默这样的人所使用的一种预兆性语言进行竞争:‘当我在三一学院看到爆炸时,我想到了《薄伽梵歌》(Bhagavad  Gita)——我是死亡,是世界的毁灭者。’这种感觉,即物理学可以站在宇宙的本质和空军政策的立场上,是令人厌恶又充满诱惑的。在某种程度上,在过去的几十年里,你不断看到这些——纳米科学、重组DNA、控制论:‘我站在科学的角度向你们讲述,这种科学有可能拯救人类,但也有可能会使人类灭绝,你们应该密切关注,因为这可能会使你丧生。’这种言论极具诱惑力,在人工智能和机器人学领域也常有耳闻。”

24岁时,我第一次接触到维纳的思想,在麻省理工学院的会议上遇到他的同事,当时我对维纳的警告或告诫毫无兴趣。真正让我好奇的,是他对生命的看法如此直截了当,如此激进,这一看法基于非线性消息的通信数学理论:维纳认为,“通信和控制的新概念涉及重新诠释人类,以及人类对宇宙和社会的了解”。这个观点激发我的灵感,使我写出第一本书,这本书把信息理论,也就是通信的数学理论,当作所有人类经验的模型。

在最近的一次谈话中,彼得告诉我,他准备着手写一本关于构建、崩溃和思考的书,这本书考察了控制论的黑匣子本质,以及为何这一本质代表了他所认为的“学习、机器学习、控制论和自我的根本转变”。



伟大的中世纪数学家花剌子米(al-Khwarizmi)在他的第二部佳作中描述了新的印度形式的算术。根据他名字的发音,很快就有了algorismus(中世纪晚期拉丁语)一词,意思是作用于数字的程序,最终该词变成algorithm传入法语,再传入英语。但我喜欢“现代算法学家”一词,即使我的拼写检查器并不喜欢。我所说的现代算法学家指的是这样一些人,他们对人类判断的干预深表怀疑,他们认为这种判断违背了客观和科学的基本准则。

在20世纪末,明尼苏达大学的两位心理学家撰写了一篇论文,对长期以来影响人类预测领域的大量文献进行总结。他们认为,一种观点长期以来一直坚决地、最终也是不道德地坚持“临床预测法”,认为所有主观的东西如“非正式的”“头脑中的”“印象派的”东西,都很有价值。这些临床医生(心理学家如是说)认为他们可以仔细研究他们的研究对象,聚集在委员会中,对刑事累犯、大学里的好学生、医疗结果等做出基于判断的预测。而另一种观点则体现了临床医生所没有提及的一切,这一观点接受客观性,也就是“形式的”“机械的”“算法的”东西。作者认为这是后伽利略时代科学的全部胜利的根源。科学不仅从实际中受益,而且在很大程度上,科学是机械精算的。通过从量刑到精神病学领域的136项预测研究,作者发现,在128项预测中,使用精算表、多元回归方程或算法判断的预测在准确性上相当于或超过了使用主观方法的预测。

他们接着列出了17个坚持临床预测的错误理由。有一些自私自利的人害怕机器做了他们的工作而因此失去自己的工作。其他人缺乏足够教育不懂遵循统计论据。一组人不相信数学的形式化;另一组人痛斥他们认为的精算“不人性化”;而其他人则认为目的是理解而不是预测。但是,无论动机如何,这篇论文得出的结论是:认为主观强于客观、专家判断优于算法是完全不道德的。(44)

算法学家的观点越来越有说服力。2007年至2010年,安妮·米尔格拉姆(Anne  Milgram)担任新泽西州检察长。上任之初,她想知道该州谁被逮捕、谁被指控、谁进了监狱,以及罪犯犯了哪些罪行。在后来的TED演讲中她说,在当时,她几乎找不到任何数据或分析。但通过实施统计预测,在她任职期间,执法部门能够将谋杀案减少41%,挽救37人的生命,同时将总犯罪率降低26%。加入阿诺德基金会担任刑事司法副总裁后,她组建了一个由数据科学家和统计学家组成的团队,创建风险评估工具。她解释说,从根本上来讲,该团队的任务是决定如何将“危险分子”关进监狱而将非危险分子释放出来。米尔格拉姆认为:“这么做的原因在于我们的决策方式。当法官需要做出风险决策时,他们的意图是最好的,但他们是主观地做出决定的。他们就像20年前的棒球球探一样,利用他们的直觉和经验来判断某人所造成的风险。他们很主观,我们知道做出主观决策会发生什么,那就是我们经常出错。”她的团队创建了900多个风险因素,其中9个是最具预测性的。对于她的团队来说,最紧迫的问题是:一个人会犯下新的罪行吗?那个人会做出暴力行为吗?会有人出庭吗?米尔格拉姆总结道,我们需要一个“客观的风险度量”,它应该受到法官判断的影响。我们知道算法统计过程是有效的。她说,这就是“为什么谷歌是谷歌”“为什么体育大数据会赢得比赛”的原因。

算法学家取得了胜利。我们现在已经习惯了这样的想法:协议和数据可以并且应该在日常活动中给我们指导,从提醒我们接下来可能要去哪里,到发生犯罪的可能性。到目前为止,根据文献,算法的法律、伦理、形式和经济尺度都是准无限的。我想主要讨论算法的一种危险性:它承诺带给我们的客观性。

科学客观性有其历史。这似乎令人惊讶。明尼苏达州心理学家的上述观点是否正确?客观性不是和科学本身一样协同扩展的吗?在这里,有必要回顾一下我们在科学工作中可能重视的所有认知美德。量化似乎是一件好事;预测、解释、统一、精确、准确、确定和教学效用也是好事。在所有可能的世界中最好的一面是,这些认知美德都朝着同一个方向发展。但它们并不比我们的道德美德更为一致。根据需要奖励他人可能与根据能力奖励他人相矛盾。在某种意义上,平等、公平、精英主义,这些伦理学都是对冲突美德的裁决。我们常常忘记这种冲突也存在于科学中。设计一个仪器使其尽可能灵敏,结果它却经常剧烈波动,使测量不可能重复。

到了19世纪初,科学实践和科学术语中才有了“科学客观性”一词。在科学图册中,我们可以清楚地看到这一点。这些图册为科学家提供了他们专业的基本对象:当时有(现在也有)手图册、头骨图册、云图册、水晶图册、花图册、气泡室图册、核乳剂图册和眼病图册。在18世纪,如果你在房子外看到了特别的、被太阳晒焦的、被毛虫咀嚼过的三叶草,很明显你不会把它画进图册里。不会的,如果你是像歌德(Goethe)、阿尔比努斯(Albinus)或切泽尔登(Cheselden)一样的天才自然哲学家,你的目标就是观察自然,然后完善所讨论的对象,形象化地把它抽象为典范。拿一副骨架,通过相机显像器观察它,小心地把它画出来,然后纠正“不完美的地方”。这种将纯粹经验的帷幕拉上的好处是显而易见的:它提供了一个普世皆用的指导,这种指导不依附于难以预测的个体差异。

随着科学范围的扩大,科学家数量的增加,理想化的负面影响变得更加明显。让歌德描绘“植物原型”或“昆虫原型”是一回事,让无数不同的科学家以不同的、有时是矛盾的方式来修复他们的图像是另一回事。渐渐地,从大约19世纪30年代开始,人们开始看到一些新的东西:有人声称,要以最少的人为干预来制作图像。这可能意味着用铅笔描出一片叶子,或者将叶子浸入墨水然后直接拓印在纸上。这也意味着,一个人突然对通过显微镜来描绘自然物体而感到自豪,即使镜头下的物体有缺陷。这种想法很激进:雪花没有完美的六边形对称,显微镜透镜边缘附近的颜色会畸变,在制备过程中组织边缘会出现撕裂。

科学客观性的意思变成了我们对事物的描述要排除人为干预的因素,即使这意味着要重现在显微镜下图像边缘附近的黄色,即使科学家知道变色是来自透镜,而不是研究对象的特征。客观性的优点很明显:它取代了希望看到一个理论实现或一个普遍接受的观点得到证实的愿望。但客观是有代价的。你失去了那精确的、易于教学的、彩色的、充满景深的、艺术家对解剖过的尸体的再现。你得到的是一张模糊的、景深不好的黑白照片,医学院学生,甚至很多医学老师都不会用它来研究、比较病例。然而,在19世纪很长一段时间里,人们越来越赞赏客观性的不干预及自我约束的优点。

从20世纪30年代开始,科学表象中强硬的科学客观性开始陷入困境。例如,在对恒星光谱进行编目时,没有一种算法能与训练有素的观察者相匹敌,后者比任何纯粹遵循规则的过程更精确,更具有可复制性。到了20世纪40年代末,医生开始学习如何阅读脑电图。为了辨别不同类型的癫痫发作读数需要专业判断,而早期使用频率分析所做的尝试都不能与这种判断相匹敌。绘制太阳磁场的太阳磁图需要经过训练的专家从测量仪器中出现的伪影中找出真实的信号。即使是粒子物理学家也认识到,他们不能用计算机将某些轨道正确分类;所需的是判断,经过训练的判断。

这里不应该有混淆:这并不是回到18世纪召唤理想主义者的天才。没有人认为你可以通过训练成为歌德,成为所有科学家中唯一能挑出植物、昆虫或云朵的普遍而理想的形式的人。专业知识是可以学习的,你可以通过一门课程来学习如何对脑电图、恒星光谱或气泡室轨迹进行专业判断;唉,没人觉得学习一门课程,就可以掌握非凡的洞察力。要成为歌德,并没有捷径。在一本接一本的科学图集中,人们看到了明确的论点,即“主观”因素必须是创建、分类和解释科学图像所需的科学工作的一部分。

在许多算法学家的主张中,我们看到的是一个宏愿,也就是放弃主观判断,以科学客观性的名义依靠机械程序,精确地找到科学客观性。美国许多州已经立法使用判决和假释算法。有人认为,一台机器远胜过法官判决时的变幻莫测。

但科学界给了我们一个警告。不干预型算法程序主义在19世纪确实非常辉煌,当然,在今天的许多最成功的技术和科学研究中仍然发挥着作用。但是,认为机械客观性,也就是约束性的自我约束,仅仅遵循从不好的印象派临床医生到好的外部化精算师这一简单、单调的上升曲线,并不能解释科学史的趣味性和微妙性。

科学界有一个更重要的教训。机械客观性是科学的美德,而硬科学常常吸取这一教训。我们在法律和社会科学领域也必须这样做。例如,当秘密的专有算法将一个人送进监狱10年,而把另一个犯有同样罪行的人只送进监狱5年,这时会发生什么?耶鲁大学法学院信息社会项目的访问研究员丽贝卡·韦克斯勒(Rebecca  Wexler)对这个问题进行探讨,同时也探讨了商业秘密算法使得公平的法律辩护的成本剧增。(45)事实上,出于各种原因,执法部门可能不想分享用于DNA、化学物或指纹识别的算法,这使得辩护人很难辩护成功。在法庭上,客观性、商业秘密和司法透明度可能会走向相反的方向。这让我想起物理学史上的一个时刻。第二次世界大战后不久,胶片巨头柯达和伊尔福使一种用来揭示基本粒子相互作用和衰变的胶片变得更完美。当然,物理学家们都很兴奋——直到电影公司告诉他们胶片的构成是商业秘密,因此科学家们永远不会完全相信他们了解自己正在研究的物理过程。对科学家来说,用黑匣子证明事情是一个危险的游戏,对刑事司法来说,也是如此。

其他批评家强调,依靠被告或罪犯的话语或其他变量是非常危险的,这些变量很容易在法律判决的黑匣子里成为种族的代表。根据日常经验,我们对这样一个事实已经司空见惯:对于12岁以下的儿童和75岁以上的成年人,机场安检是不同的。我们希望算法学家在通常隐藏的过程中考虑哪些因素:教育?收入?就业经历?读过什么书?看过什么电影?去过哪些地方?买过什么东西?或是否与执法部门事先联系过?我们希望算法学家如何权衡这些因素?基于机械客观性的预测分析是有代价的。有时,这可能是值得付出的代价;但有时,这代价对于我们想要拥有的正义社会来说是毁灭性的。

更通常地说,由于算法和大数据的融合支配着我们生活越来越大的一部分,我们要谨记科学史上的这两个教训:第一,判断不是自我约束的纯粹客观性丢弃的外壳。第二,机械客观性是相互竞争的美德中的一种,而不是科学事业的本质。这些教训我们要牢记,即使算法学家梦想着客观性,也要牢牢记住这些教训。



Probably  we  should  be  less  concerned  about  us-versus-them  and  more  concerned  about  the  rights  of  all  sentients  in  the  face  of  an  emerging  unprecedented  diversity  of  minds.

或许,面对一种前所未有的心智多样性,我们应该减少对“我们VS.他们”的关注,而应更关注所有有意识者的权利。