We将开始录制并自动转换我们所说的大部分。大声说出的单词将作为文本进行计算,而不是蒸发到内存中,进入将被引用,搜索和开采的记录。它将通过我们的标准组合愿意和允许。它会发生,因为它可以。它会比我们想象的更早发生。
它将使不可思议的事情成为可能。想想你搜索电子邮件的所有原因。突然之间,你自己的演讲也会以同样的方式出现。“给我看看去年1月之前和迈克尔的所有对话……妈妈推荐的那家餐馆的地址是什么?...我第一次提到罗伯的现任妻子是什么时候?...谁参加了那个会议?”乔治梅森大学(George Mason University)的经济学家罗宾•汉森(Robin Hanson)与人合著了一本即将出版的关于进化心理学的书,他推测,我们可能都养成了在演讲中频繁使用关键词的习惯,以便日后查阅。 Or, while you’re talking, a software agent could search your old conversations for relevant material. Details would come to your attention at just the moment that you needed them.
许多大声说出来的话将被发表并成为网络的一部分。现在失去的专业知识、观点、智慧和文化的深不可测的质量将和今天的任何文章或评论线索一样容易获得。你可以在任何时候收听飞机驾驶员、理发店、研究生院的牛市节目。你可以搜索每一个提到你公司名字的地方。你们可以读父亲对儿子讲的故事,或者同事对同事的解释。人们会以善于交谈而闻名于世。广告商、律师、学者将挖掘这些记录。仅仅因为人们说的比写的多得多,可以用来筛选和品味的单词数量就会激增。
在电脑的帮助下,你可以追踪发言者的引用,或突出你最常用的短语,或找到联合国你比一般人更常说的常见短语,看看还有谁和你一样说话。你可以检测到其他人是否在录制和你一样的东西,比如,在一场音乐会或电视节目中,并自动整理你的评论。
如果你听了今天录制的整个人类语料库,你会认为我们是一个奇怪的物种。
Bill Schilit,一位早期挖掘谷歌图书语料库的谷歌人,建议你甚至可以使用引文来找到科学主题之间的联系。“在科学上,你会遇到这样的问题:同一件事不同的人会给它起不同的名字;但引证往往是学科之间命名的桥梁。他描述了一个项目,谷歌研究了不同领域的研究人员使用的引文。在每一份文档中,他们会提取引言之前的句子——引言之前的句子——然后比较这两种描述;这样他们就能知道报价是多少代表:它对不同的作家意味着什么,不同学科的作家称之为同一件事。
但将所有这些帮助或伤害我们?在他的书中的浅滩卡尔(Nicholas Carr)认为,增强我们思维的新技术实际上可能会让我们的生活变得更糟。我们越依赖工具,就越不依赖自己的大脑。也就是说,大脑的某些部分看起来就像肌肉:你要么使用它(它就会生长),要么就会失去它。卡尔引用了一项关于伦敦出租车司机学习“知识”(The Knowledge)的著名研究,“知识”是一项关于街道地图和兴趣点的严酷测试,司机要想拿到正式的出租车执照,必须通过这些测试。当出租车司机摄入了更多关于伦敦街道的信息时,他们大脑中负责空间信息的部分确实在增长。更重要的是,这些成长的部分占据了其他灰质正式占据的空间。
矛盾的是,长期记忆似乎不用同样的方式;它没有“填补”。因此,通过将更多内存的需求卸载到记录,因此,它可能不是我们为其他更重要的思维提供空间。我们可能只是剥夺我们的有用材料的大脑。“When a person fails to consolidate a fact, an idea, or an experience in long-term memory,” Carr writes, “he’s not ‘freeing up’ space in his brain for other functions ... When we start using the Web as a substitute for personal memory, bypassing the inner processes of consolidation, we risk emptying our minds of their riches.”
然后,担心,是双重的:如果你停止努力回忆出言语或姓名,或那本书的大脑的一部分,或者 - 布朗建议 - 你 - 辐条到他in-in-the-晚餐 - 当天之后 - 足球比赛,也许你大脑的那些部分会萎缩。更加有害,因为你来到记录中的更多信息作为事件和想法的商店,你会更少地决定将它们提交给自己的长期记忆。所以你的思绪将成为一个不太有趣的地方。
如果这很可怕,那么想想生活在一个一切都被记录下来的社会里会是什么样子。这是英国科幻系列的一集黑镜子设置在一个谷歌眼镜风格的语音和视频记录无处不在的世界。这是一种地狱。在机场安检处,特工要求你以高速回放你过去的24小时,这样他们就可以清除与你互动的所有面孔。在聚会上,人们没有进行新的交谈,而是仔细研究他们的“重做”并要求见他们的朋友。在孤独的时刻,人们没有像往常一样使用自己头脑中有缺陷、模糊、非线性的回忆装置来排练记忆,而是重放视频,放大他们第一次错过的部分。他们似乎生活在太多的过去中,以至于被它困住了。过去似乎被过于完美、过于公开的记录所扭曲和折射。在这一集最生动的黑暗时刻,我们看到一对情侣激情做爱,却意识到伟大的性爱正在“重做”中发生,他们都在植入的眼罩上观看;在现实生活中,他们无爱地在冷床上驼背,两个被麻醉的僵尸。
在天堂和地狱之间存在着一个可能的事实:当像唱片这样的东西出现时,它不会改变我们生活和爱的基本方式。它不会把我们的大脑变成浆糊,也不会让我们成为超人。我们将继续做我们平常乏味的自己,时而狡诈,时而天真。是的,我们会有新的能力,但是我们想要会比我们可以做更多的缓慢变化。
年代语音识别一直是人工智能研究的圣杯。1969年,贝尔实验室的工程师J.R.皮尔斯写道:“这种吸引力可能与把水变成汽油、从海洋中提取黄金、治疗癌症或登上月球等计划的吸引力相似。”他认为,我们攻击和资助这个问题,并不是因为它容易处理,甚至不是因为它有用,而是因为与计算机对话会有一些伟大的东西。这就像科幻小说一样。机器看起来是有生命的。
识别语音的问题似乎包含了人类理解的全部问题——毕竟,为了解析一个模糊的声音,我们不仅要运用语言知识,还要运用对世界的知识——这只会使它更吸引人。语音识别的进步将更广泛地代表人工智能的进步。所以它成为了一个基准和奖励。
最早的工作系统将自己限制在一个简单的词汇表中——比如,数字“0”到“9”一次只说一个,并通过在声波中寻找特定的特征来区分单词。正如你所料,当词汇量增加时,不同单词的声波差别变得更加微妙。这个方法失败了。研究人员意识到他们需要更强大的东西。
他们的洞察力,在20世纪70年代到了,是典型发言为同时在多层次的序列。也就是说,在每一个时刻,他们以为他们的识别系统作为音量,音节级,字级,短语级在一些状态,等等。它的工作是预测,在每个级别,下一个状态是什么。要做到这一点,使用概率这么说,在本质上的大表,“如果你看到的状态A,那么状态B发生的时间0.1个百分点,状态C发生的30%的时间,状态d发生的时间11%“ 等等。这些表是通过对标签数据进行系统的培训取得(已被转录的手工记录,以及被称为是正确的)。诀窍是,如果字级的预测是不明确的,也许是因为环境吵闹,或扬声器的声音从另一个层面扭曲的预测值可以用来排除可能性,家中的正确选择。这是一个巨大的进步。这就像从试图解决在一次字谜一个线索打对电网会:每个线索提供线索对他人,简化并降低了这个难题。
这种认识,加上训练数据和计算能力的指数增长,支撑了过去40年里语音识别的大部分进展。正是因为这样,我们才有了可用但容易出错的听写软件,比如Siri的第一个版本Dragon Naturally Speaking,以及那些让你说出自己选择的自动电话树(“账单查询”或“日程维护”)。但在2010年前后,似乎有可能取得进展总是在语音识别领域已经没有什么大的想法了。这个领域似乎已经趋于稳定。然后,深度学习出现了。
人们将继续关注他们的外表,而不是他们的声音。他们更有可能停下来自拍,而不是自言自语。
Geoffrey Hinton和他的合作者,当时在多伦多大学,现在在谷歌,正在对深度神经网络进行实验。神经网络计算机程序,工作有点像大脑:它们是由neuron-like细胞层接收来自其他神经元的输入,计算一些简单的函数(比如一笔或平均)比输入,和火或不是基于价值函数,扩散激活其他更深层次的神经元网络。训练网的方法是向最下面的一层输入信息,然后观察从最上面一层出来的是什么;如果输出结果不是你预期的,你可以使用一个简单的学习算法来调整神经元之间连接(“突触”)的强度,直到你得到你想要的结果。冲洗和重复数十亿个示例,您的网络可能会编码手头问题的重要特性,并作为一个识别器工作得很好。
大多数神经网络都是无状态的,因为给定输入感的输出仅依赖于该输入。这限制了它们对语音建模的有效性。但在Hinton实验室工作的Alex Graves想知道,如果使用输出可能依赖于i序列的神经网络来解决语音识别问题,会发生什么情况NPUT被称为“递归神经网络”。它们非常有效。Graves的RNN所提供的关于语言的信息远远少于那些长期以来一直是该领域主流的多级预测系统,很快就与旧方法相匹配,并超越了旧方法的性能。
当我和辛顿交谈,问他这么简单的程序怎么能如此有效地识别语音时,他说他想起了一些他喜欢的草图,莱昂纳多·达·芬奇(Leonardo da Vinci)的,汹涌的水流经过一个水闸。水在漩涡中奔腾、起泡、打旋,一片混乱。但是它的行为,Hinton说,“都是由极其简单的Navier-Stokes方程描述的。”一些简单的规则产生了所有的复杂性。他认为,当神经网络学会识别语音时,也会发生同样的事情。辛顿说:“你不需要手工将大量复杂的语音现象输入系统。”。
在谷歌,欣顿和他的同事正在做基础研究在计算机科学,研究,正如他所说的,“学习算法,做工精良的空间。”他们的研究结果将有应用数量巨大。但讲话始终是头等大事,并不仅仅是因为它是他们的算法良好的试验场。“关于演讲的事情,”韩丁告诉我,“是,它与事物交互最自然的方式。”
如今,谷歌、苹果、亚马逊和微软对录制和转录我们所说的一切都不感兴趣。他们对语音作为一种界面感兴趣。例如,亚马逊回声(Amazon Echo)坐在那里等着你发出命令;对于播放音乐或查找一些琐事,说话比打字更容易,尤其是当你可以在电脑上进行操作时房间里的任何地方。随着计算机变得越来越小,移动到我们的手腕或鼻梁上,也许有一天会进入我们的耳朵,键盘不再实用,但我们仍然需要一种方法来告诉计算机该做什么。为什么不直接告诉它呢?为什么不直接说:“好的,谷歌,指引我回家?”
这是怎么回事发生。语音识别技术是由基础研究带动双双进入AI-因为它是一个模式问题,并认为需要谷歌及其同类的创造自己的新设备更好的语音接口。有意或无意,高科技很快就会好,以达到一个临界点,什么记者马特·汤普森称Speakularity,其中“录制的讲话中默认的期望值将是它的可搜索性和可读性,几乎在瞬间。”唯一的问题,那么,将是我们的决定记录。
Y如果你今天听到整个人类的录得的语料库,你认为我们是一种奇怪的物种。You’d find all the blathering radio hosts there ever were, and the many takes of voiceover actors, and you’d find journalists talking to their subjects, and pilots to their controllers—and that would all be but the tiniest speck in a vast sea of calls to customer service, “recorded for quality purposes.” You wouldn’t get a sense of what human life actually sounded like, of what we actually talked about.
梅根罗宾斯是加利福尼亚大学的心理学助理教授,滨江,比世界上几乎任何人都听取了更加常规的谈话。她的研究依赖于一个叫做耳朵的装置(用于电子激活的记录器),专为“自然设置中的采样行为”而设计。研究科目同意整天穿它。它每小时约五次时间转动周期性间隔,并记录佩戴者所说并听到约30秒的所有内容。主题可以在将它们移交给Robbins以进行分析之前审查和删除他们喜欢的任何剪辑。
有了耳朵,罗宾斯可以成为日常生活的科学家。例如,她可以听夫妻如何称呼自己:他们说“她和我”还是“我们?”她可以听人们笑,并试图找出原因。一项研究发现,“绝大多数笑都不是在幽默刺激下发生的。”总体而言,笑是社交性的,用来表示“我认为你的地位比我高”或“我想和你交往”
罗宾斯目前正在使用EAR研究患有癌症的夫妇。他们谈论什么?他们谈论癌症吗?他们笑得少了吗?她说:“你永远不会想到要对乳腺癌患者笑的频率进行专门研究。”但随着数小时的文字记录和录音,关于我们基本行为的问题越来越多。结果显示,癌症患者在7%的视频中笑了,这一比例与大学生相当。他们谈论癌症的比例是一样的。罗宾斯解释说,即使你被诊断出患有癌症,似乎每天都有一种活力。“这对人们来说真的很难不继续他们的日常活动。”
她解释说,人们平均谈论了很多,醒来的40%。她的本科研究助理,来到她的实验室兴奋地窃听人们,“有时候会令人心碎地发现日常生活,有时是平凡的。它由电视观赏等事情组成,以及关于您将在晚餐时进行的对话。和关于电视的对话。“罗宾斯说,她对电视常客观看多少感到惊讶。“这是一个几乎完全忽视的主题,但在耳朵研究中出现了......它只是在癌症应对情侣中谈论的第二个。”
一般来说,人们不谈论的一件事是耳朵本身。“自我报告表明对他们的生活没有影响。他们通常忘记了自己戴着它。”事实上,人们可以在抄本中追踪提到耳朵的情况。仅仅两个半小时后,它们就显著下降。“正常的生活还在继续,”罗宾斯说。
当介绍了记录的想法时,我们可能会想象人们将无法进行正常的谈话,因为他们会太忙于表演。但是,任何人都记录的人都知道,对自己的言论的自我意识监测是非常昂贵的,才能持续很长时间。罗宾斯的数据支持直觉,经过一小段时间,你恢复正常。
汉森还认为,一旦无所不在的语音转录出现,“正常”这个词就会很重要。他不相信它会像一些人认为的那样改变世界。他说:“当你看到我们的世界与1000年前有多么不同时,真的很难对此感到非常激动。”
他解释说,1000年前几乎没有隐私。生活区很密集。房间很小,也不上锁。没有走廊。别人可能会听到你们做爱的声音。当你旅行时,你很少独自一人去;你们三五成群地四处游荡。大多数人都住在小镇上,在那里,大多数人都认识其他人,谈论他们。我们当时和现在的生活方式有着巨大的差异。然而我们适应了。 “I gotta figure the changes we’re looking at are small by comparison,” he says. People have always been able to distinguish between their close friends and their less-close friends. They’ve always been able to decide who to trust, and they’ve always found ways to communicate intimacy. They’ve always been able to lie.
“即使是我们的觅食祖先也很有能力不告诉对方一些事情,”他说。“觅食者应该分享食物。但他们隐藏了很多食物。他们在回营地的路上吃了很多,他们在营地藏了一些,他们对给谁食物有选择性。”即使是在一个30人的乐队中,普通人一生中最多会遇到6个其他乐队,即使在那种环境下,每个人晚上都呆在同一个营地,我们的祖先也能够回避,调整他们的语言和手势,使其对自己有利。
有一个记录将会给我们一个新的维度来描绘我们一直拥有的能力。那些经常被记录的人会适应这个事实,因为他们会成为知道记录内容的专家。他们会像父母围着孩子说话一样。他们会成为貌似有理的推诿大师。他们会挖苦人,或做鬼脸、露齿而笑,或仰着头,或傻笑,或把目光对准对方,只是想说些什么,而不是说出来。
这听起来很累人,但当然,我们已经灵活地适应了私人、小团体和公共对话的范围——只要去工作场所就可以了。或者去参加派对。我们不断地询问和回答关于观众的微妙问题,并根据答案调整我们的演讲。)杰克在吗?杰克的妻子在吗?)
“这不可能意味着我们所说的一切现在都公开了,”汉森争辩道。“有一个层我们在公开场合说的话但我们总是在同时讨论多个层面。”
W每当我们考虑一项新技术时,我们都会沉迷于其中,似乎现在世界的每一个方面都必须用它来理解。我们是一个忧郁症社会。但事实是,我们头脑中运行的硬件几乎没有任何变化,软件也只是一代代缓慢地变化。
该记录将不会把我们的大脑玉米粥。是的,我们可能会花更少的能源承诺精彩演讲给我们的长期记忆。和成绩单会减轻我们不必跟踪拿出在谈话中某些细节。但我们不会因此而丧失了能力追踪细节——就像我们在发明日历时没有失去计划的能力,或者在我们发明笔时没有失去记忆的能力。我们会用其他方法来丰富我们的长期记忆(比如,仔细阅读大量新近转录出来的材料)。我们的大脑适应了写作、图书馆和网络。他们会适应记录。无论如何,人们还是会更关心他们的外表,而不是他们的声音。他们更有可能停下来自拍,而不是自言自语。
也不是像一个生命黑镜子当然,唱片可能会增强我们的自恋、怀旧、急躁和偏执。它甚至可能使我们全体腐败或麻木。但这种情况以前也发生过,无论是智能手机、电视、镜子还是酒精,不管怎样,我们最终还是成功地变成了自己。
詹姆斯·萨默斯是一个程序员,作家总部设在纽约。他的作品在天才。









