简历阅读- - -为什么机器人的大脑需要符号

您已经阅读了2篇免费月刊文章中的1篇。了解更多。

为什么机器人的大脑需要符号

我们需要深入学习和符号操作来构建人工智能。

如今,“人工智能”这个词似乎几乎出现在每个人的嘴边,从埃隆·马斯克到亨利·基辛格……加里·马库斯

N如今,从埃隆·马斯克(Elon Musk)到亨利·基辛格(Henry Kissinger),“人工智能”这个词似乎几乎在每个人的嘴边。至少有十几个国家发起了重大的人工智能计划,谷歌和Facebook等公司也陷入了一场大规模的人才争夺战。自2012年以来,几乎所有的注意力都集中在一种技术上,它被称为深度学习,这是一种统计技术,使用一组简化的“神经元”来近似大型复杂数据集合中固有的动态。深度学习推动了从语音识别、计算机象棋到自动标记照片等各个方面的进步。对一些人来说,它可能看起来像“超级智能”-机器比人智能得多的情况即将出现。

事实是,他们不是。让机器识别句子中的音节与理解句子的意思并不相同。像Alexa这样的系统可以理解像“打开灯”这样的简单请求,但要进行有意义的对话还有很长的路要走。类似地,机器人可以给你的地板吸尘,但驱动它们的人工智能仍然很弱,而且它们还远没有足够聪明(足够可靠)来照看你的孩子。有很多事情是人们可以做的,而机器仍然做不到。

我试着退一步,解释为什么深度学习可能不够,以及我们应该在哪里寻找将人工智能提升到下一个水平。

还有很多关于我们下一步该做什么的争论。我应该知道:在过去的三十年里,自从我在麻省理工学院开始研究生学习,与鼓舞人心的认知科学家史蒂文·平克一起学习以来,我一直在反复地讨论人类思维的本质,以及构建人工智能的最佳方式。我采取了一种有时不受欢迎的立场,即像深度学习这样的技术(以及当时的前辈们)不足以抓住人类思想的丰富性。

这种时断时续的争论在上周出人意料地大范围爆发,导致了一场巨大的推特风暴这就吸引了一批杰出的人物,包括脸谱网的创始人、深度学习的创始人和现任脸谱网首席科学家Yann LeCun(简而言之)、谷歌运营AI的Jeff Dean和洛杉矶州图灵奖得主Judea Pearl。

当140个字符不再似乎足够时,我试图退后一步,解释为什么深入学习可能还不够,我们也许应该寻找一个可能与深度学习相结合的另一个想法,以便将AI带到一个下一级别.以下是我的轻微适应个人观点关于辩论的全部内容。


当我阅读时,一切都没有开始约书亚·本吉奥访谈录作为深度学习领域的先驱之一,谷歌公司(google inc .)的谷歌(google inc .)首席执行官戴维技术评论. 发明家经常大肆宣传他们的发现,本吉奥淡化了他的发现,转而强调人工智能中可能需要解决的一些其他重要问题,并写道:

我认为我们需要考虑人工智能的严峻挑战,而不是满足于短期的、渐进的进步。我并不是说我想忘记深度学习。恰恰相反,我想在此基础上进一步发展。但我们需要将其扩展到推理、学习因果关系、探索世界等方面,以便学习和获取信息。

我几乎同意本吉奥的每一个字,并认为本吉奥如此公开地说出来,真是太棒了。我也似乎被什么(a)一个重要的观点的变化,或者至少框架,相对于如何深度学习的倡导者陷害事情几年前(见下文),(b)运动朝着一个方向,我一直主张,和(c)来自Bengio值得注意。

因此,我在推特上发布了采访,期待着一些转发,而不是更多。然后,几乎立刻,一场推特风暴爆发了。

这是推文,也许忘记在暴风雨中:

为了记录和比较,这里是我在六年前的2012年11月25日说过可怕的:

深度学习是一项重要的工作,具有直接的实际应用价值。

事实上,深度学习只是构建智能机器这一更大挑战的一部分。这类技术缺乏表示因果关系的方法(如疾病及其症状之间的因果关系),并且可能面临获取“兄弟姐妹”或“相同”等抽象概念的挑战他们没有明显的方法来执行逻辑推理,而且他们离整合抽象知识还有很长的路要走,例如关于对象是什么、它们的用途以及它们通常如何使用的信息。最强大的人工智能系统……将深度学习等技术作为非常复杂的集成中的一个元素从贝叶斯推理的统计技术到演绎推理。

我支持这一点。据我所知(我可能是错的),这是第一个有人说深度学习本身不是灵丹妙药的地方。考虑到像Pinker和我这样的人对上一代前辈模型的发现,围绕深度学习的炒作似乎是不现实的。六年后,本吉奥也说了同样的话。

有些人喜欢推特,有些人不喜欢。Yann LeCun的反应非常消极。在一系列推文中,他(错误地)声称我讨厌深度学习,因为我个人不是算法开发人员,所以我没有权利批评别人;他说,如果说我最终看到了深入学习的曙光,那只是在最近几天,在我们推特讨论的空间里(也是假的)。

通过反思这场辩论中说了什么和没说什么(以及哪些内容确实被证实了,哪些内容实际上没有被证实),以及深度学习仍在苦苦挣扎的地方,我相信我们可以学到很多。


T澄清一些误解:我不讨厌深入学习,一点也不讨厌。我们在我的上一家公司(我是首席执行官和创始人)使用了它,我希望我会再次使用它;如果我忽视它,我会发疯的。我想我说的是为了公开记录,请随意引用我的话,深度学习是解决某些问题的极好工具,特别是涉及知觉分类的问题,比如识别音节和物体,但也不是万灵药。在我的纽约大学与Lecun辩论,我赞扬了LeCun在卷积方面的早期工作,这是一个非常强大的工具。自从我第一次写这篇文章以来,我一直在给深度学习一些(但不是无限的)荣誉:在《纽约客》2012年,2018年1月深度学习:一篇批判性评价文章在这篇文章中,我明确表示,“我认为我们不应该放弃深度学习”,并在许多情况下介于两者之间。乐存一再公开歪曲我,说我只是刚刚意识到深度学习的效用但事实并非如此。

LeCun认为我不应该被允许发表评论的说法同样荒谬:科学需要批评者(LeCun本人对深度强化学习和神经形态计算提出了正确的批评),尽管我个人不是一名算法工程师,但我的批评到目前为止具有持久的预测价值。举个例子,我在前人身上做的深入学习实验,1998年首次出版,直到今天仍然有效,正如最近的工作与更现代的模型,由人喜欢布伦丹湖和马可·巴罗尼班吉奥本人. 当一个领域试图扼杀其批评者,而不是解决潜在的批评,用政治取代科学探究时,某些事情就出了严重的问题。

但乐村在一件事上是对的;有某物我讨厌。我讨厌的是:深入学习是没有明显的限制和可能,所有本身一般智力,如果我们给它更多的时间和更多的数据,在2016年建议捕捉到Andrew Ng,导致大脑谷歌和百度的AI组。吴昌俊认为,人工智能(他主要指的是深度学习)会无论是“现在还是不久的将来”,都能“用不到一秒钟的时间”完成一个人可以完成的“任何精神任务”

一般来说,尽管并非总是如此,但对深度学习的批评往往会被忽视或忽略广告hominem.方法每当有人指出深度学习可能有一个特定的限制时,总会有像杰里米·霍华德这样的人告诉我们。杰里米·霍华德是Kaggle的前首席科学家,也是fast.ai的创始研究员深度学习被夸大的观点本身就被夸大了.像LeCun这样的人工智能领域的领导者承认,人工智能肯定存在一些限制,虽然有些模糊,但他们很少指出这些限制是什么(这就是为什么本吉奥的新报告如此引人注目),除了承认其对数据的渴求之外。

其他人喜欢利用深度学习黑匣子的不透明性来暗示这是未知的限制。例如,上周,机器学习的创始人之一汤姆·迪特里奇(Tom Dieterich)在回答关于深度学习范围的问题时说:

从技术上讲,迪特里希当然是正确的;目前还没有人给出关于深度学习限制的正式证明,因此也没有明确的答案。他认为深度学习还在继续发展,这也是对的。但推特(表达一个论点我听过很多次,包括Dietterich不止一次)忽略了这样的事实,我们也有很多很强的启发性的证据至少有一些限制的范围,如经验观察对推理能力的限制,表现不佳的自然语言理解,对对抗性例子的脆弱性,等等。(在本文的最后,我甚至会给出一个物体识别领域的例子,这是深度学习的强项。)

再举一个例子,考虑广泛阅读。2015年文章自然界论深度学习作者是LeCun, Bengio和Geoffrey Hinton,他们三人与深度学习的发明联系最为紧密。本文相当详细地阐述了深度学习的优势。他们说的很多都是真的,但几乎没有什么是公认的限制所以我们很容易从论文中跳出来认为深度学习是一个比实际更广泛的工具。该论文的结论进一步表明,深度学习的历史对立面——符号操纵/经典人工智能——应该被取代:“需要新的范式来取代基于规则的对大向量符号表达的操纵。”许多科学论文的传统结尾——“极限”——本质上已经缺失,由此推断出深度学习的视野是无限的。这个信息似乎是,符号操纵将很快被扔进历史的垃圾箱。

当我抱怨深度学习时,并不是因为我认为它应该被“取代”,而是因为我认为它被卖过头了。

强调实力而不承认局限的战略在一个国家更为明显2017年自然界文章谷歌旗下的人工智能公司DeepMind也在进行中,这似乎意味着深度强化学习的无限视野。这篇文章认为Go是人工智能中最难解决的问题之一——“我们的结果全面证明了纯[深度]强化学习方法是完全可行的,即使是在最具挑战性的领域。” —不承认其他困难问题在性质上不同,可能无法通过类似方法解决。例如,大多数任务中的信息不如围棋中的信息完整。我将进一步讨论这个问题在其他地方

当一个领域主要或完全依赖于其最新发现的优势,而不公开承认可能存在的弱点时,这让我非常担心。

我的观点是:深度学习确实很棒,但它对于认知工作来说是错误的工具。它是一个感知分类的工具,当一般智力涉及更多的时候。我在2012年所说的(并且从未偏离)是,深度学习应该是人工智能工作流程的一部分,而不是整个工作流程的一部分:“只是非常复杂的事物集合中的一个元素”,正如我当时所说的那样,以及今年1月所说的“不是通用溶剂,[只是]众多工具中的一个”。深度学习就像我们所认为的任何东西一样,是一种具有特殊优势和特殊弱点的工具。任何人都不应该对此感到惊讶。

当我提到深度学习时,并不是因为我认为它应该被“取代”(cf. Hinton,Leun and Bengio的强语言,上面的游戏的名字就是征服以前的方法),但是因为我认为(a)它已经被超卖(例如Andrew Ng引用,或者整个Debug 2017的框架)。自然界(b)深度学习的蓬勃发展往往伴随着对符号操纵的敌意,我认为这是人工智能最终解决方案中的一个基本错误。

我认为两个深度学习和象征化 - 将共存更有可能,深入学习处理感知分类的许多方面,但符号操纵在推理抽象知识时发挥着重要作用。狭隘的AI与深入学习的进步通常是表示我们不再需要符号操作,我认为这是一个巨大的错误。


so什么是符号操纵,为什么我坚定地抓住它?这个想法回到了计算机科学的最早的日子(甚至更早,以正式逻辑的发展):符号可以代表想法,如果你操纵这些符号,你可以做出他们所代表的推论的正确推断。如果你知道P暗示Q,你可以从中推断非Q那个not-P.如果我告诉你普罗桑暗示Quegle.但是Quegle.不是真的,那么你可以推断普罗桑事实并非如此。

在我的2001年的书代数思想,根据认知心理学家艾伦·纽厄尔和赫伯·西蒙以及我的导师史蒂文·平克的传统,我认为人类的思维(在其他工具中)包含了一套表示符号结构化集合的机制,类似于一棵等级树。更重要的是,我认为认知的一个重要组成部分是学习通过变量表达的抽象关系的能力s— 类似于我们在代数中所做的,当我们学习一个方程,比如X = y +2,然后解x给予一些价值Y. 附着附着的过程Y调用一个特定的值(例如5)绑定; 将该值与其他元素相结合的过程就是我所说的活动. 这本书的中心观点是,象表示抽象、用实例实例化变量以及对这些变量应用操作这样的符号过程对人类思维来说是必不可少的。我详细地说明了神经网络的拥护者常常忽视这一点,这是危险的。

无论人们如何看待大脑,实际上世界上所有的软件都是建立在符号之上的。

该论点的形式是为了表明神经网络模型分为两类:“实现连接主义”具有正式映射到变量操作符号机制上的机制,“消除连接主义”缺乏这种机制。成功捕捉到各种事实(主要是关于人类语言)的模型是映射到的模型;那些没有失败的。我还指出,规则允许我所说的普遍性的自由泛化,而多层感知器需要大样本来近似普遍关系,这是一个在实践中突然出现的问题本吉奥最近在语言方面的工作

还没有人知道大脑是如何实现变量之类的东西,或者如何将变量绑定到实例的值上,但强有力的证据(在书中有评论)表明,大脑可以。几乎每个人都同意,至少有些人在做数学和形式逻辑时可以这样做,大多数语言学家也同意,我们在理解语言时是这样做的。真正的问题不在于人类的大脑是否能够进行符号操作,而在于使用符号的过程的范围有多广。

这本书的第二个目标是表明,在原则上使用神经元作为元素来构建符号操作的原语是可能的。我研究了一些旧的想法,比如通过时间振荡进行动态绑定,并个人支持一种插槽和填充器的方法,这种方法涉及带有代码的节点类单元库,类似于ASCII代码。内存网络和可微程序设计一直在做一些类似的事情,使用更现代的(嵌入)代码,但遵循类似的原则,采用类似微处理器的操作进行符号操作。我谨慎乐观地认为,这种方法可能在推理和语言等方面工作得更好,一旦我们有了一个足够可靠的、机器可解释的、概率性但抽象的常识数据库。


W不管你怎么想大脑,实际上世界上所有的软件都是建立在符号上的。例如,每一行计算机代码实际上都是对变量的一组操作的描述:如果X大于Y, 做P,否则我会Q; 连接A.B一起形成新的东西;等等。神经网络可以(取决于它们的结构,以及是否有任何东西精确地映射到变量的操作上)提供一种真正不同的范式,而且显然对语音识别这样的任务很有用,因为现在没有人会用一套规则来完成这类任务,这是有充分理由的。但是没有人会通过对输入(用户击键的日志)和输出(屏幕上的图像或数据包下载)集的监督学习来构建浏览器。我对LeCun的理解是,Facebook的很多人工智能都是由神经网络完成的,但Facebook的整个框架肯定不是在没有符号操作的情况下运行的。

虽然符号在语音识别中可能不再有家了,而且显然无法独立完成全部认知和感知,但仍有许多问题,你可能会期望它们有所帮助,尽管在基于符号操作的古典人工智能世界或深度学习世界中,没有人会遇到这些问题,有答案了吗 . 这些问题包括抽象推理和语言,毕竟,形式逻辑和符号推理工具就是为这些领域发明的。对于任何认真尝试理解(比如)常识推理的人来说,这似乎是显而易见的。

是的,部分原因可以追溯到人工智能早期的历史原因,深度学习的创始人往往对在他们的模型中包含此类机器抱有强烈敌意。例如,辛顿于2015年在斯坦福大学发表了一篇名为《呼啸符号》的演讲,他试图争辩说,用正式符号的推理概念是“作为信念不正确,即轻型波只能通过导致发光寿模的干扰引起空间。”

据我所知,辛顿并没有对此进行论证(当时我正坐在房间里)。相反,他(在我看来)似乎是在建议如何将分层符号集合映射到向量上。这将不会使符号“以太”——它将使它们成为非常真实的因果元素,并有一个非常具体的实现,这是对辛顿似乎主张的一个反驳。(当我问辛顿时,他拒绝澄清。)从科学的角度来看(而不是政治的角度),这个问题不是我们所谓的终极人工智能系统。问题是:它是如何工作的?它是否包括作为符号操作装置实现的原语(就像现代计算机所做的那样),还是基于完全不同的原则工作?我的最佳猜测是,答案将是两者兼而有之:任何一般智能系统的某些部分(但不是所有部分)将完美地映射到符号操作的原语上,而其他部分则不会。


T这实际上是一个相当温和的观点,对双方都有好处。然而,我们现在所处的情况是,机器学习领域的巨大优势并不想明确包括符号表达式(比如“狗有鼻子,它们用来嗅东西”)或变量操作(比如测试观察结果是否正确的算法)P,QR它们的蕴涵(逻辑上是一致的)在它们的模型中。

更多的研究人员对向量更为熟悉,并且每天都在使用这些向量方面取得进步;对于大多数研究人员来说,符号表达式和操作不是工具箱的一部分。但在某种程度上,他们利用这些工具取得的进步是可以预测的:学习感知输入标签集的训练时间不断增加,分类任务的准确性也在提高。同样可以预见的是,进步较少的领域也不例外:在推理和语言理解等领域,正是我和本吉奥试图唤起人们对深度学习的关注的领域,即使经过数十亿美元的投资,也没有让人失望。

那些域似乎直观地旋转了围绕着复杂的思想,古典AI的工具似乎完全适合这样的事情。为什么继续排除它们?原则上,符号还提供了一种从维基百科到教科书的所有文本知识的方式;深入学习没有明显的方式纳入“狗有鼻子”这样的基本事实,也没有办法积聚这种知识,以更复杂的推论。如果我们的梦想是建造通过阅读维基百科学习的机器,我们应该考虑以与其中所含知识兼容的基板。

在上个月的推特讨论中,我个人提出的关于深度学习的最重要问题最终是:它能解决一般智力问题吗?还是只解决涉及知觉分类的问题?或者介于两者之间的问题?还需要什么?

符号本身无法解决问题,而深度学习也无法解决问题。早就应该把它们结合起来,为新型混合动力车服务了。


J在我完成这篇文章的初稿后,马克斯·利特尔把我的注意力吸引到发人深省的新论文作者Michael Alcorn、Anh Nguyen等人强调了过度依赖深度学习和大数据的固有风险。特别是,他们表明,当常见刺激在三维空间中旋转到不同寻常的位置时,标准的深度学习网往往会崩溃,比如上图的右上角,一辆校车被误认为是扫雪机:

在一个健康的领域,当一种系统性的、令人惊讶的、具有启发性的错误被发现时,一切都会停止。灵魂会被搜身;手会扭来扭去。误认一辆翻了的校车不仅是个错误,而且是个发人深省的错误它不仅表明深度学习系统可能会被混淆,而且还表明它们在做出所有哲学家都知道的基本区别方面面临挑战:区分仅仅是偶然关联的特征(有扫雪机时通常会下雪,但不是必要的)以及属于该类别本身固有属性的特征(除此之外,在其他条件相同的情况下,除已拆除外,除雪犁应配备雪犁)。我们已经见过类似的人为刺激的例子,比如阿塔耶(Anish Athalye)精心设计、3d打印、泡沫覆盖的棒球,却被误认为是浓缩咖啡:

奥尔康的研究结果——其中一些来自自然界的真实照片——本应将这种异常现象的担忧推到最前面。

不过,最初的反应并不是束手无策,而是更不屑一顾,比如LeCun在推特上写道怀疑地将非规范的姿势刺激比作毕加索的绘画s读者可以自己判断,但应该注意的是,右边的一栏显示了所有的自然图像,既没有绘画也没有渲染。它们不是想象的产物,它们是必须面对的真正限制的反映。

在我看来,深度学习已经到了清算的时刻。当一些最杰出的领导人否认这一点时,就出现了一个问题。

Which brings me back to the paper and Alcorn’s conclusions, which actually seem exactly right, and which the whole field should take note of: “state-of-the-art DNNs [Deep Neural Networks] perform image classification well but are still far from true object recognition.” As they put it, “DNNs’ understanding of objects like ‘school bus’ and ‘fire truck’ is quite naive”—very much parallel to what I said about neural network models of language 20 years earlier, when I suggested that the concepts acquired by Simple Recurrent Networks were too superficial.

驱动Alcorn的技术问题等等。什么是新的结果?

作为Alcorn等等。把它放了:

深度神经网络可能无法推广到非分布输入,包括自然的、非对抗性的输入,这在现实世界中很常见。

有趣的是,他们应该提到这一点。这个早在1998年,我就提出了符号操纵的主要动机是因为反向传播(然后用于层次较少的模型,因此是深度学习的前兆)在训练示例空间之外难以推广。

这个问题并没有消失。

和对象识别应该是深入学习的强项。如果深度学习无法在非甘露解的姿势中识别对象,我们为什么要预计它会进行复杂的日常推理,这是一个任务,它从未向任何设施展示过任何设施?

事实上,这值得重新考虑我1998年的结论在一些长度。当时我的部分结论是(摘自结论性摘要论点):

● 人类可以将广泛的普遍性推广到任意的新实例。它们似乎在语言(包括句法、词法和语篇)和思维(包括及物推理、蕴涵和类包含关系)的许多领域都是如此。

●符号操作的倡导者认为,大脑实例化了符号操作机制,包括符号、类别和变量,以及将实例分配到类别、代表和扩展变量之间的关系的机制。这种解释为理解普遍性如何扩展到任意的新实例提供了一个直接的框架。

●目前的消去连接模型使用反向传播算法(或其变体之一)将输入向量映射到输出向量。

●概括普遍性的新颖实例,这些模型需要在培训空间之外概括。

●这些型号无法在培训空间之外概括。

● 因此,目前的排除连接主义模型无法解释那些涉及可以自由扩展到任意情况的普遍性的认知现象。

理查德埃文斯和爱德华格雷芬斯特的深刻的纸张,建立在乔尔·格鲁斯的基础上关于游戏“嘶嘶嗡嗡”的博客文章,遵循了非常相似的思路,得出结论,一个规范的多层网络无法单独解决这个简单的游戏,“因为它没有捕获理解这个任务所需的通用、普遍量化的规则”——这正是我在1998年所说的。

他们的解决方案?这是一种混合模式,其表现远远超过了纯深网的表现,包括这两个反向传播(连续版本)关于符号操纵的基本原理,包括显式变量和变量操作。这确实说明了问题。这就是我们应该关注的地方:梯度下降加上符号,而不仅仅是梯度下降。如果我们不想再把扫雪机和校车混为一谈,我们可能最终需要关注同一个方向,b因为潜在的问题是一样的:实际上在大脑的每一个方面,甚至是视觉,我们偶尔会遇到训练领域之外的刺激;当这种情况发生时,深度学习会变得不稳定,我们需要其他工具来帮助。

我所说的就是给予Ps(和Qs) 一个机会。


盖瑞·马库斯是这家机器学习公司的CEO和创始人吗几何的情报(被优步收购),是纽约大学心理学和神经科学教授,也是纽约大学的自由职业者纽约人纽约时报

参加讨论