安卡·德拉甘-AI的25种可能-万书网

Anca Dragan

安卡·德拉甘是加州大学伯克利分校电气工程和计算机科学系的助理教授。她是伯克利人工智能研究实验室的共同创立者，是该实验室的指导委员会成员，也是伯克利人类相容人工智能中心的共同首席研究员。

布罗克曼谈安卡·德拉甘

出生于罗马尼亚的安卡·德拉甘的研究重点是使机器人能够与人类共事、与人类相处并支持人类的算法。她在加州大学伯克利分校运营着一个实验室，在这个实验室里她的学生们从最优控制、规划、评价、学习和认知科学中汲取经验，尝试创造各种不同的应用，从辅助机器人到制造产品再到自动驾驶汽车等。刚刚30多岁的她，就与加州大学伯克利分校的同事以及导师斯图尔特·罗素合著了许多论文，这些论文涉及机器学习的各个方面，以及价值对齐难题。

和斯图尔特一样，她也非常关注人工智能安全问题。“眼下最迫在眉睫的风险就是人工智能会做出人类并不想要的、令人惊讶的行为，”在接受未来生命研究所的采访时她说，“即使我们计划使用人工智能来达成美好的目的，也不会一帆风顺，这是因为我们不善于为人工智能指定目标，不善于约束人工智能。它们的解决方案往往并不是我们所想要的。”

因此，她的主要目标是帮助机器人和程序员克服由于缺乏对彼此意图的了解而产生的许多冲突。她说，机器人需要问我们问题。它们应该对自己的工作感到好奇，它们应该让人类程序员感到难缠，直到每个人的思想意见完全一致——以避免她委婉地所说的“意想不到的副作用”。

人工智能的核心是我们对人工智能主体（机器人）的数学定义。我们定义一个机器人，就是定义它的状态、行动和奖励。例如，设想一个递送机器人。状态是机器人在世界中的位置，行动是它从一个位置到附近位置的运动。为了让机器人能够决定采取哪些行动，我们定义了奖励函数，也就是从状态和行动到分数的映射，分数表明在某状态下某行动有多好。有了分数，我们就能让机器人选择可以积累最多“奖励”的行动。机器人到达目的地时就会得到高额奖励，但它每次移动时都会花费掉少量的成本；这种奖励功能激励机器人尽快到达目的地。类似地，自动驾驶汽车可能因其在行驶路线上的进步而获得奖励，但也会因太接近其他汽车而付出代价。

有了这些定义，机器人的工作就是找出它应该采取什么行动来获得最高的累计奖励。为了让机器人能做到这一点，我们一直在努力。在这种情形下，我们实际上是在暗中假设，如果我们成功了，如果机器人能够理解所有问题的定义，并且知道该采取什么样的行动，那么我们将拥有对人和社会有益的机器人。

到目前为止我们还没有错。如果你想要一个能将细胞分类为癌细胞或良性细胞的人工智能，或者一个能在你工作的时候用吸尘器清扫客厅地毯的机器人，我们已经为你准备好了。一些现实世界的问题可以被孤立地定义，有明确的状态、行动和奖励。但是随着人工智能能力的增加，我们想要解决的问题并不适合这个框架。我们再也不能割下一小块世界，把它放进盒子里，交给机器人了。帮助人们开始意味着在现实世界中工作，在那里机器人必须与人们实际互动，并理智地对待他们。“人”必须正式进入人工智能问题的定义中。

自动驾驶汽车已经开发出来了。它们需要与行人和人类驾驶的车辆共享道路，并学会在尽快送我们回家和不给其他司机带来麻烦之间进行权衡。个人助理需要弄清楚我们什么时候真正需要帮助，需要多少帮助，它们还需要清楚哪类工作我们喜欢自己做而不是交给别人来做。决策支持系统或医疗诊断系统将需要向我们解释它的建议，以便我们能够理解并验证这些建议。自动化的教师需要确定对于我们人类而非其他机器而言，哪些例子是信息性的，哪些例子是说明性的。

展望未来，如果我们希望具有更高能力的人工智能能够与人相容，我们就不能孤立地创建它们，然后再试图使它们与人类相容；相反，我们必须从一开始就定义“人类相容”人工智能。我们不能事后再考虑这件事。

当谈到能够帮助真正人类的真正机器人时，我们对人工智能的标准定义很失望，原因有两个。第一，孤立地优化机器人的奖励功能与当机器人与人类相处并做出行动时优化它完全是两码事，因为人们也同时在采取行动。我们是为了自己的利益做出决定，而这些决定就决定了我们会采取什么行动。此外，我们会对机器人讲道理，也就是说，我们对自己认为它正在做什么、将要做什么，以及我们认为它的能力是什么做出回应。无论机器人决定做出什么行动，都需要与我们的行动很好地配合。这是协调问题。

第二，最终是人类决定了机器人的奖励功能应该是什么。人类的目的是激励机器人行为，使其符合最终用户的需求，符合设计师的愿望，或符合整个社会的想法。我相信，当执行非狭窄定义的任务时，有能力的机器人需要理解这一点，以实现与人类的相容性。这是价值对齐问题。

协调问题：人不仅仅是环境中的客观存在

当我们为特定的任务设计机器人时，很容易把人剥离出来。例如，机器人个人助理需要知道如何移动来拾取东西，所以我们就会孤立地定义这个问题，不考虑机器人为之拾取东西的人。而且，当机器人四处移动时，我们不希望它撞到任何东西，包括人在内，所以我们需要在定义机器人的状态时把人的物理位置也包括进去。自动驾驶汽车也一样：我们不希望它们与其他汽车相撞，所以我们使它们能够跟踪其他汽车的位置，并假设它们会一直朝着相同的方向运动。

从这个意义上说，人类对于机器人而言与在平面上滚动的球并无二致。球在接下来的几秒钟内会像过去几秒钟一样，以大致相同的速度向同一方向滚动。这当然不像真正的人类行为，但是这种简化使得许多机器人能够完成它们的任务，并且在大部分情况下，不会挡住人的路。例如，你家里的机器人可能会看到你穿过客厅，它会移开让你过去，等你走过去后，它就会继续完成它的任务。

然而，随着机器人越来越有能力，已经不能再把人当作一直移动的障碍物了。开车时变换车道的人类驾驶员不会始终沿着同一方向行驶，而是会在变换车道后沿着新的方向向前行驶。当你伸手去拿东西时，你经常会绕过其他物体，当到达你想要的物体时你会停下来。你在走廊上走，脑中有一个目的地：你可以向右拐进卧室，或者向左拐进客厅。假如我们依靠这个我们与滚动的皮球一样的假设，那么当机器人本不需要避开却避开了时，它的效率就会变低，而且当人的行为发生改变时，机器人就会有危险。即使只是为了避开，机器人也必须能够精准地预测人类行为。而且，与滚动的皮球不一样，人们会做什么取决于他们决定做什么。因此，为了预测人类的行为，机器人需要开始理解人类的决策。但这并不意味着我们要假设人类行为是完全最优的；对于象棋或围棋机器人来说，这可能就足够了，但在现实世界中，人们的决策可不像棋盘游戏中的最优棋步那么容易预测。

理解人类行为和决策的需要同时适用于有形和无形的机器人。如果两种机器人都以假设人类会做一件事为基础做出决策，但人类却做了另一件事，那么由此产生的不匹配可能是灾难性的。对于自动驾驶汽车来说，这可能意味着碰撞。对于一个具有金融或经济角色的人工智能来说，它期望我们做的事情和我们实际所做的事情之间的不匹配可能会产生更糟糕的后果。

对于机器人来说，有一个办法就是机器人不再预测人类的行为，而只是防止最坏的人类行为。不过通常当机器人这样做时，它们就不再有用了。对于自动驾驶汽车来说，这会让它陷入困境，因为汽车的每一个举动都太有风险了。

所有这些都让我们陷入了困境。这表明，无论人们做出什么决定，机器人都需要精确的（或至少合理的）预测模型。我们的状态定义不仅仅包括人类身体在世界中的位置。而且，我们还需要评估人类的内心世界。我们需要设计出能解释人类内心状态的机器人，这可是一项艰巨的任务。幸运的是，人们常常会给机器人暗示，告诉它们自己的内心状态：他们正在做的就是让机器人按照贝叶斯推理了解他们的意图。如果我们开始朝走廊的右边走，我们可能会进入右边的隔壁房间。

但人们不会孤立地做决定，这个事实使问题变得更加复杂。现在假设机器人能够预测一个人想要采取的行动，并且简单地知道该如何应对。但不幸的是，由此带来的超级防御机器人会把人类搞糊涂。（例如，想想人类驾驶员停在一个通往四个方向的路口时的情形。这种预测意图的方法所遗漏的正是机器人行动的那一刻，机器人的行动会影响到人类开始采取的行动。

机器人与人类之间存在相互影响，机器人需要学会运用这一点。不仅是机器人要围绕人类做计划，人类也要围绕机器人安排计划。对于机器人来说，在决定采取哪些行动时，无论是在路上、在厨房中，甚至是在虚拟空间中，把这一点考虑进来都很重要。虚拟空间中的行动可能是购买商品或采用新的策略。要想做到这一点，就应该让机器人具有协调策略，使它们能够参与到人们每天无休止的各种谈判中，从谁先通过十字路口或穿过狭窄的门，到我们每个人在准备早餐时所扮演的角色，到在项目中采取的下一步达成共识。

正如机器人需要预见人们下一步将做什么，人们也需要预测机器人的下一步行动。这就是为什么透明度很重要。不仅机器人需要良好的人类心理模型，人类也需要良好的机器人心理模型。人类所拥有的机器人的心理模型必须进入人类的状态定义，机器人必须清楚它的行为会如何改变这个模型。就像机器人把人类的行为当作人类内心状态的线索一样，人类在观察机器人的行为时也会改变他们对机器人的认知。遗憾的是，给机器人提供线索并不像给人类提供线索那样自然。在与人类含蓄交流方面，人类有太多的经验了。但是，如果机器人能够理解它们的行为使机器人装置中的人的心理模型产生变化，这可以让它们能更仔细认真地选择它们的行为，这些行为确实能给人类提供正确的线索，清楚地向人们传达机器人的意图、奖励功能和局限性。例如，机器人在搬运重物时可能会改变它的运动，以强调它在操纵重物时的困难。人们对机器人的了解越多，就越容易与它协调。

实现行为兼容性需要机器人预测人类行为，并理解人类的这些行为会怎样影响它们自己的行为，同时还要使人类能够预测出机器人将要采取的行为。在应对这些挑战方面，我们的研究已经取得了一定程度的进展，但还有很长的路要走。