解决之道-AI的25种可能-万书网

我们能直面维纳的警告吗？我们能否设计出一种人工智能，使它的目的与人类的不冲突，从而可以确保我们对它们的表现很满意？表面上看，这似乎完全不可能，因为无疑我们无法准确写下人类的目标，也不可能想象出人工智能在实现这些目标时所采用的所有违反直觉的方式。

如果我们把超级智能的人工智能系统看成来自外太空的黑盒子，那么我们就没有什么希望。相反，如果我们想要对结果有信心，那必须采取的方法就是定义什么是形式的“问题F”，然后再把人工智能设计成“问题F的解决者”，这样，无论这个系统以什么方式解决了“问题F”，我们都会对解决方案感到满意。如果我们能找到合适的“问题F”，那么我们就能创造出“有益的人工智能”。

下面这个例子告诉我们怎样才能不这样做：以某种标量值作为奖励，由人类根据机器在每一个时期的表现，定期给机器奖励，然后把“问题F”定义为将机器获得的预期奖励总和最大化。对于机器来说，这个问题的最佳解决方案并不是像人们所希望的那样，要好好表现，而是控制人类，强迫他或她提供最大的回报。这被称为“大脑连线”问题，根据观察发现，如果可以用电流直接刺激自己的快乐中枢，人类自己也容易受到同样问题的影响。

我相信，一定会有一种有效的方法。可以说，虽然大多数时候表现不明显，但人类对未来的生活有自己的偏好，也就是说，如果有足够的时间把未来生活的无限可能展现在人类面前，人类就可以从任意两种可能之间挑出更喜好的那一个。（这种理想化状态忽略了这种可能性，即我们的思维里有许多子系统，这些子系统的偏好各不相容；如果真的如此，这会限制机器的能力，使它无法满足我们的偏好，但这似乎并不妨碍我们设计出可以避免灾难性后果的机器。）在这种情况下，机器要解决的形式“问题F”是最大限度地满足人类对未来生活的偏好，尽管它最初对人类的偏好并不确定。此外，尽管人类对未来生活的偏好是隐变量，但这些偏好根植于大量的证据，也就是根植于所有做出过的选择。这一构想回避了维纳的问题：随着时间的推移，机器可能会对人类的喜好越来越了解，但它永远不会完全确定。

协同反向强化学习，更精确地解释了这个问题。协同反向强化学习包含两个方面，一个是人类，另一个是机器人。因为包含两个方面，所以这个问题就成了经济学家所说的“博弈”问题。这个博弈的信息是不全面的，因为虽然人类知道奖励函数，但机器人却不知道，即使机器人的任务是使其最大化。

举一个简单的例子：假设人类哈丽特喜欢收集回形针和订书钉，她的奖励函数取决于她各收集了多少。更准确地说，如果她有p个回形针、s个订书钉，她的幸福度是θp  +（1-θ）s，这里θ指回形针和订书钉之间的兑换率。如果θ是1，她只喜欢回形针；如果θ是0，她只喜欢订书钉；如果θ是0.5，她对两个都一样喜欢；等等。机器人罗比的工作是生产回形针和订书钉。博弈的关键是罗比想让哈丽特高兴，但他不知道θ是多少，所以他不知道该生产多少回形针、多少订书钉。

博弈过程是这样的：让θ的真值为0.49，也就是说，在回形针和订书钉之间，哈丽特略微偏爱订书钉。我们假设罗比对θ有一个统一的先验信念，也就是说，他认为θ会是介于0和1之间的任何值。哈丽特现在做一个小演示，或者生产2个回形针，或者生产2个订书钉，或者每样生产1个。之后，机器人或者要生产90个回形针，或者生产90个订书钉，或者各生产50个。你也许会猜，因为哈丽特更喜欢回形针一些，所以应该生产2个回形针。但如果这样，罗比做出的理性反应应该是生产90个回形针，这时哈丽特的幸福度为45.9。对于哈丽特来说，这样的结果没有各生产50个要好，其幸福度为50.0。对于这个博弈，最优的解决方案是哈丽特每样各生产一个，这样罗比可以每样各生产50个。因此，我们对博弈的界定就使得哈丽特可以“教会”罗比，只要她知道罗比在仔细观察。

在协同反向强化学习框架内，人们可以构想出开关问题并解决它，也就是如何防止机器人使自己的开关失灵（图灵可以高枕无忧了）。如果一个机器人不确定人类的偏好，那么把它的开关关闭实际上对它有益，因为它知道人类会按下开关，不让它做与人类偏好相反的事情。这样，机器人就会受到鼓励保护它的开关，这种鼓励直接来自机器人对人类偏好的不确定性。(8)

上述的开关示例给出一些模板，使我们可以设计出可控机器人，它还给我们提供了至少一种很可能非常有益的系统。这个系统的总体思路类似于经济学中的机制设计问题，也就是一方激励其他方以有益于设计师的方式行事。两者的主要区别在于，我们建造一个机器人是为了使人受益。

我们有理由认为这种做法在实践中很可能是有效的。首先，我们有丰富的文字和影像资料记录了人类行事方式和其他人的反应方式。在建立超级智能人工智能系统之前，我们完全有可能根据这个资料库建立人类偏好模型。其次，让机器人了解人类偏好会带来很强的短期经济效益：如果一个设计拙劣的家用机器人不知道情感价值比营养价值更重要，它把猫给炖了当作晚饭，那么家用机器人业将破产倒闭。

然而，这里有一个明显的难题，也就是如何让机器人了解人类行为的潜在偏好。人类并不理性，他们反复无常、意志薄弱、计算能力有限，所以他们的行为并不总是反映他们真正的偏好。例如，有两个人在下棋。通常，有一方会输棋，但他不是故意的！因此，只有借助于更好的人类认知模型，机器人才能从非理性人类行为中学习。此外，现实和社会的禁锢也使人类的所有偏好无法同时得到最大限度的满足，这意味着机器人必须在矛盾的偏好中协调，为此哲学家和社会科学家已经奋斗了几千年。而从那些喜欢折磨别人的人身上，机器人应该学到什么呢？最好在机器人的计算程序中剔除这些偏好。

找到人工智能控制问题的解决方法是一项重要任务，用波斯特洛姆的话来说，这可能是“我们这个时代的关键任务”。到目前为止，人工智能的研究主要集中在设计出能更好做出决策的系统上，但这与做出更好的决策是不一样的。无论它的算法多么优秀，也不管它的世界模型多么精确，如果一个机器的效用函数与人类价值不一致，那么很可能在一个普通人眼中它的决策就是愚蠢至极。

这个问题需要我们改变对人工智能的定义，人工智能不再是一个与纯智力相关、与目标无关的领域，它是一个有益于人类的系统。认真思考这个问题，我们可能会对人工智能、它的目的以及它与人类的关系产生新的思路。

Any  system  simple  enough  to  be  understandable  will  not  be  complicated  enough  to  behave  intelligently,  while  any  system  complicated  enough  to  behave  intelligently  will  be  too  complicated  to  understand.

任何一个简单到可以理解的系统都不会复杂到可以智能化行事，而任何一个复杂到足以智能化行事的系统都会太过于复杂而无法理解。

乔治·戴森

George  Dyson

乔治·戴森是一名科技史学家，著有《海豹皮船》（Baidarka:  the  Kayak）、《计算机生命天演论》（Darwin  Among  the  Machines）、《猎户座计划》（Project  Orion）和《图灵的大教堂》（Turing's  Cathedral）。

注：乔治·戴森的著作《图灵的大教堂》中文简体字版已由湛庐文化策划，浙江人民出版社出版。——编者注