O我们文化的一个最显著的特点就是有太多的胡说八道。”这是这本短篇小说的开场白扯淡,由哲学家哈里·法兰克福所著。在这本出人意料的畅销书出版15年后,人工智能研究的快速进展正迫使我们重新考虑把废话作为人类语言标志的概念,这带来了令人不安的影响。扯淡的哲学思考和算法有什么关系?事实证明,有很多。
今年5月,由埃隆·马斯克(Elon Musk)于2015年共同创立的OpenAI公司推出了一种新的语言模型,名为GPT-3(用于“生成式预训练变压器3”)。它席卷了科技界。表面上看,GPT-3就像是智能手机上自动完成功能的增压版;它可以根据初始输入生成连贯的文本。但GPT-3的文本生成能力远远超出了手机的任何功能。它可以消除代词歧义,翻译,推理,类比,甚至执行一些形式的常识推理和算术。它可以生成人类几乎无法察觉的虚假新闻文章。给定一个定义,它可以在句子中使用一个虚构的词。它可以用著名作家的风格重写一段。是的,它可以写创造性的小说。或者根据程序功能的描述生成程序代码。它甚至可以回答有关常识的问题。这个名单还有很多。
GPT-3因其惊人的规模而成为工程学上的一个奇迹。它包含分布在96层的1750亿个参数(神经元或网络单元之间连接的权重)。它在12288维的向量空间中产生嵌入。它接受了数千亿词的训练,这些词代表了互联网的一个重要子集,包括英语维基百科的全部内容、无数的书籍和令人眼花缭乱的网页。仅训练最终的模型估计就花费了大约500万美元。大家都说,GPT-3是一个庞然大物。扩大它的网络和训练数据的规模,而不从根本上改进多年前的架构,就足以引导该模型在一系列复杂任务上取得意想不到的出色表现,开箱即用。事实上,GPT-3能够进行“少射击”,甚至在某些情况下是“零射击”学习,或者在没有任何成功例子的情况下学习执行新任务。
与GPT-3互动是一种超现实体验。它经常感觉就像一个人在与人类的信仰和欲望交谈。在2013电影中她,主人公与一个虚拟助手发展了一段浪漫关系,但当他意识到自己是在把人类的感情和动机投射到“她”的外星思想上时,他的幻想很快破灭了。GPT-3的智能远不及电影中的人工智能,但它仍然可以进入我们的内心。一些科技创业公司replika.他们已经在致力于创造符合个人期望特征的人工智能同伴。毫无疑问,许多人都会这样做易于服用甚至是一个简单的聊天字体使用GPT-3构建。有人想知道,在一个已经发现社交媒体与真实人类的互动会增加社会隔离的世界里,这种趋势可能会产生什么后果。
在其核心,GPT-3是一个人工废话发动机 - 而且是一个令人惊讶的好良好的发动机。
OpenAI很清楚这种语言模型带来的一些风险。它没有将模型发布给所有人使用,而是只允许少数人试用——包括企业家、研究人员和科技界的公众人物。有人可能会怀疑这是否是正确的策略,特别是考虑到该公司在授予模型访问权方面的相当不透明的标准。也许让每个人都严格地测试它会更好地告知如何处理它。在任何情况下,类似的语言模型被广泛使用只是时间问题;事实上,已经可以利用基于GPT-3的开放服务(例如AI地牢)为了了解它可以做的事情。GPT-3的能力范围是真正令人印象深刻的。它引领了许多评论员来辩论它是否真的“了解”自然语言,恢复老哲学问题。1.
像ELIZA这样的“好的老式人工智能”的时代已经一去不复返了,ELIZA是由麻省理工学院的Joseph Weizenbaum团队在20世纪60年代开发的。伊丽莎提供了对未来的初步展望。通过使用精心编制的“脚本”,伊丽莎可以利用语言的表面特征,通过锁定关键词,在与人的书面对话中产生预先确定的答案。尽管ELIZA的规则集是由程序员创建的,但它却出人意料地有效地愚弄了一些人,使他们认为它能够真正理解他们所说的话,以至于Weizenbaum觉得不得不写一本书,告诫人们不要将计算机程序拟人化。然而,与伊丽莎交谈的时间足够长,可能会揭示出她只是在鹦鹉学舌地模仿人类的散文。除了简单重复的基于关键字的技巧外,ELIZA无法解析自然语言,更不用说理解它了。
从那时起,计算机科学就取得了惊人的进展,特别是近年来,自然语言处理的子场已经处于最前沿。现代算法而不是依赖一套明确的手工制作的指示,而是使用由哺乳动物大脑松散地启发的人造网络。这些了解如何通过培训大量数据来执行任务。这个过程的唯一目的是,称为机器学习,是要大致表示数学函数的最佳值,粗略地表示模型的每个输出的每个输出有多好或差 - 每次尝试在数据的某些部分完成任务。虽然人工神经网络表现不佳当他们在20世纪50年代首次登上舞台时,越来越多的计算能力和训练数据的可用性最终证明了它们优于传统算法。
识别人类书写的句子不再是一项琐碎的任务。
当然,让机器说话一直被认为是人类水平人工智能发展曲折道路上的一个重要里程碑。我们做的很多看起来很聪明的事情,比如进行复杂的推理和抽象的问题解决,我们都是使用自然语言,比如英语。
在自然语言处理领域,一个古老的观念,分布假说,引导了机器学习的革命。根据这一观点,出现在相似语境中的单词具有相似的含义。这意味着,原则上,一个算法可以通过大量文本中单词的分布来学习表示单词的含义。研究人员将这一观点应用到机器学习算法中,该算法旨在根据上下文(单词出现的句子或词组)预测单词缺失的概率,从而学习单词的含义。
2013年,在新闻文章的大语料库中培训了一个称为“Word2VEC”的这种算法。在训练期间,来自语料库的每个单词都变成了高维矢量空间中的向量(也称为嵌入)。在类似上下文中发生的单词最终在该空间中具有邻近嵌入的。结果,两个单词嵌入的距离(由它们之间的角度之间的余弦测量)直观地反映了相应的单词之间的语义相似性。两个单词的含义越多,他们的嵌入越近应该在空间中。
在训练之后,Word2Vec的嵌入式似乎捕获通过向量上的简单算术运算揭示的单词之间的有趣语义关系。例如,嵌入“王”-“人”的嵌入加“女人”的嵌入最接近嵌入......“女王”。(直观地,“国王”是“男人”,因为“女王”是“女人”。)
GPT-3比word2vec复杂得多。它基于2017年推出的人工神经网络架构“Transformer”。基于这种结构的神经网络可以在大量的文本上进行“预训练”,学习自然语言的一般属性。然后,它们可以简单地在一个较小的语料库中“微调”,以提高特定任务的表现——例如,根据主题对新闻文章进行分类,总结段落,或预测给定输入后的句子。虽然GPT-3并没有彻底改变Transformer架构,但它太大了,并且接受了太多的数据训练,因此它可以达到接近或高于以前的微调模型的性能,没有任何微调。
WEizenbaum对人们的旧担忧尤其是伊丽莎的人们越来越紧迫,而达到GPT-3的绝佳能力。但GPT-3是否明白它所说的话?答案在很大程度上取决于我们建立了多少概念。
GPT-3似乎捕获了大量关于世界的潜在知识,这些知识在庞大的训练语料库中以统计模式隐式编码在单词分布中。尽管如此,有充分的理由怀疑GPT-3在功能上与人类的词语表达方式类似的方式表达了它所使用的词语的含义。至少,孩子们学习语言通过一个相当不同的过程,将单词映射到概念,这些概念不仅通过阅读文本获取的知识,而且很多通过感知和探索世界。
想想你是怎么知道“狗”这个词的意思的。你大概不会仅仅通过阅读或听关于狗的文章来学习它,更不用说记住“狗”这个词在你读或听的句子中的统计分布,而是通过看到一只真正的狗或狗的图片,并被告知它是什么。你的词汇概念狗不仅仅是编码相似“狗”这个词的含义与“猫”这样的话语。它嵌入了有关狗的结构化知识部分地基于感知经验,包括狗有四条腿,吃肉的知识,以及吠叫 - 所有你可能都观察到的东西。
GPT-3的Word Embeddings在世界上没有受到影响,这解释了为什么它经常努力努力回答有关熟悉对象的视觉和物理特征的常识问题。它还缺乏在人类中推动语言使用的意图,目标,信仰和欲望。它的话语没有“目的”。在说话之前,它不会“思考”,因为这涉及娱乐一个想法并将单词匹配给表达它的命题的组件。然而,其复杂和分层结构的内部表示允许其以经常感觉自然的方式构成句子,并在整个段落中显示复杂的关系之间的关系。
如果GPT语言模型的家庭有一个座右铭,它可能是“假装直到你制作它”。GPT-3肯定擅长伪造人类的语义能力,可能不会夸张地说,它在该过程中获得了自己的语义能力形式。
在电视节目的第一季西方世界,人体主角访问了由超现实androids填充的杜松症娱乐公园。被人类的Android主持人问候,他问她,不管是真的。她以一种神秘的声音回答:“如果你不能告诉,这是否重要?”无论GPT-3是否了解和使用像我们这样的语言,只是因为它通常足以愚弄我们的事实,这有令人着迷,并且可能令人不安的影响。
这就是法兰克福的胡说八道的概念有帮助的地方。根据法兰克福的说法,胡说八道是一种旨在说服他人而不顾事实的言论。从这个意义上讲,说谎者和扯谎者之间有一个重要的区别:说谎者确实关心真相,因为他们想隐藏真相,而扯谎者只关心说服他们的听众。重要的是,这并不意味着胡说八道的人永远不会说实话;事实上,好的斗牛士可以无缝地将准确和不准确的信息编织在一起。正是因为这个原因,正如法兰克福所说,“胡说八道比谎言更是真理的敌人。”
GPT-3可以生成人类几乎无法察觉的虚假新闻文章。
在其核心,GPT-3是一个人工废话发动机 - 而且是一个令人惊讶的好良好的发动机。当然,该模型无意欺骗或说服。但像人类的小说子一样,它也没有关注真理或虚假。虽然GPT-3的一部分培训数据(特别是维基百科)包含大多数准确的信息,而虽然有可能用正确的提示向实际精度设计模型,但绝对没有Oracle。没有独立的事实检查,无法保证GPT-3所说的,即使它“听起来对”也是如此。这就是为什么GPT-3在编写创造性小说时闪耀的原因,其中确切的准确性较少令人担忧。但GPT-3的产出从人类的担忧和语言生产中的动机都截然不同,同时对人类的言论充满了足够的困境,它们可以对大规模产生潜在的有害影响。
首先,像GPT-3这样的语言模型的大规模部署有可能泛滥的互联网,包括社交媒体上的在线交互,噪音。这超出了对宣传这些模型的恶意使用的显而易见。想象一下,一个世界关于Twitter或Reddit的任何评论或在Facebook上共享的任何新闻文章,都有一个完全由人类价值观所关注的算法完全写入的非琐碎概率。
这种情况不再是科幻小说了。就在几周前,GPT-3撰写的一篇自助博客文章登上了热门新闻聚合网站Hacker News的顶端。2.几乎没有人怀疑这个骗局。我们必须接受这样一个事实:识别人类写的句子不再是一项微不足道的任务。作为一个有害的副作用,真人之间的在线互动可能会被人造废话的挥之不去的威胁削弱。在谈话中,人们可能不去真正承认别人的意图、目标、情感和争论,而只是简单地诉诸于机械还原,指责对话者是计算机。因此,人工胡说八道有可能破坏人类在线言论自由。
GPT-3也引起了人们对作文在教育系统中的未来的关注。例如,我能够使用基于GPT-3的在线服务来制作一篇令人印象深刻的哲学文章关于GPT-3本身,只需很少的努力(包括在几个试验中采摘一些樱桃)。正如我的几位同事所评论的那样,结果足够好,可以通过一年级本科生写的论文,甚至可以获得相当不错的分数。守护者最近发表了一篇关于人工智能的专栏文章,文章将GPT-3生成的多个输出的段落拼接在一起。正如他们所指出的,“编辑GPT-3的评论版和编辑一个人的评论版没有什么不同”——总的来说,结果是连贯的、相关的、写得很好的。很快,语言模型对文章的作用就如同计算器对算术的作用一样:它们可能被用来在家庭作业中作弊,除非这些作业的设计方式是人工胡说八道无济于事。但如何保证这一点,目前尚不清楚。
为了结束这篇文章,我促使GPT-3完成了弗兰科特文章的第一句话。这是它提出的几个结果之一:“胡说八道并不总是错误的,尽管有时它可能有害。但即使它是无害的,它仍然有一些严重的后果。其中一个后果是它阻止人们区分什么是真实的和什么不是。”这更是胡说八道,当然但这听起来恰如其分。
拉法尔·米利埃(Raphaël Millière)是哥伦比亚大学科学与社会中心的社会与神经科学总统学者,他在该中心从事认知科学哲学的研究。在推特上关注他@raphamilliere.
脚注
1.根据哲学家约翰·塞尔(John Searle)的“中文教室论点”,没有一台计算机能够通过运行一个程序来理解一种语言。这是因为这样的电脑将会类似于人类操作员在一个房间里的英语指令集后操纵中国符号的基础上他们的语法,将汉字作为输入,并生成其他汉字作为输出,不了解中国。Searle的论点最初是针对像ELIZA这样的老式符号算法。它可以适应现代语言模式(但思维实验将更难想象)。
In any case, many philosophers rejected Searle’s conclusion for various reasons, including the suggestion that the human operator in the room is merely analogous to a specific component of the computer (the central processing unit, or CPU), and that a complete natural-language processing system—including not only the CPU but also the instructions it follows, and the memory containing intermediate states of its computations—could genuinely understand Chinese. Nonetheless, those who reject the conclusion of Searle’s argument still have room to disagree on which system would qualify as understanding natural language, and whether a computer specifically running GPT-3 would make the grade.
2.感觉效率低下?也许你应该停止想太多。https://adolos.substack.com/(2020).
主导图像:studiostoks / Shutterstock







