O你的网络个性现在和我们的碳足迹一样可衡量。除了一些相当明显的统计数据,比如我们发推的频率,我们关注了多少人,以及有多少人关注了我们,我们主要通过选择词汇来展示自己。我经常使用“我”、“我自己”、“我的”和“我的”这几个词,这可以很大程度上说明我有专注于自己的倾向,而频繁使用“我们”和“我们的”则表明我愿意分享功劳或承担责任。我频繁地使用“你”或“你的”,也表明了我想把自己的感受传递出去,所以如果我也偏爱负面词汇,这种可观察到的配对就强烈地表明了敌意。频繁使用“LOL”、“OMG”和感叹号揭示了一个易激动的个性,而#irony和#sarcasm等表情符号和标签不仅明确了我的感受,而且还表明了我对自己推文内容的一种戏谑态度。使用由逻辑连接词“if”、“but”、“yet”和“therefore”构成的复杂句子结构表明你具有分析性思考的能力,而频繁提问——尤其是那些涉及消极情绪词汇的问题——则暗示你有神经质的倾向。
Using simple linguistic criteria such as these in combination with an array of sentiment lexicons, James Pennebaker and his team at the University of Texas have developed a sentiment tool, linguistic inquiry and word count (LIWC) that can quantify an author’s personality along a range of dimensions, including positivity, anxiety, depression, anger, affability, social engagement, arrogance, enthusiasm, logicality, topicality, and self-absorption. An online version (at AnalyzeWords.com) allows users to affectively profile a Twitter personality of their choosing by entering the corresponding Twitter handle. Here is a screen-grab of an LIWC profile of @realDonaldTrump in June 2016:
2016年,特朗普在俄亥俄州共和党全国代表大会上发表接受提名演讲后的几天里,他的形象包含了傲慢、愤怒和强烈的积极情绪,甚至暗示了他的辩论有一定的逻辑结构。如果所有这些似乎都不特别令人惊讶,那么这毕竟是可信分析的目标。特朗普的愤怒是健谈的,具有传染性的,这位房地产大亨在吹嘘自己在交易、挑选妻子或打击恐怖分子方面的敏锐时,以不谦虚著称。频繁使用“让美国再次伟大”(Make America Great Again)这句口头语,也助长了他对“不诚实”希拉里的攻击,在网上树立了一个对现状感到愤怒但对未来非常乐观的形象。但作者摹写不是看手相,即使每一种摹写都涉及到测量不同种类的“生命”线。网络个性是动态的、历时的,而不是静态的、共时的,尽管人们可以辨别出一种持续存在的总体性格,但个人解读可以揭示环境的影响。想想希拉里·克林顿在2016年费城民主党全国代表大会上发表接受提名演讲的第二天,特朗普的形象吧。在演讲期间,特朗普发表了大量推文:
在这个形象中,特朗普仍然很乐观,如果没有他自己演讲的余光中那么乐观的话,然而,当他更多地致力于谴责对手而不是阐述自己的观点时,他的愤怒水平上升了。因此,我们看到,他对希拉里的攻击变得不那么分析了,因为他把逻辑结构换成了简单粗暴的侮辱。像特朗普这样以辛辣著称的网络人物是讽刺的磁铁,人们可能会问,这些虚假的特朗普账户在捕捉他反复无常的Twitter性情方面做得有多好。现实生活中的一位讽刺作家是@DonaldDrumpf,这是一个以特朗普家族的移民历史为主题的真人账户。
@DonaldDrumpf的目标是完成两个完整的目标:模仿特朗普在推特上的讽刺风格,同时削弱他的言论内容。它通过解决热门话题来实现后者,比如声称特朗普是普京的满洲候选人,同时在推特上嘲笑特朗普自私自利的出身故事:“我父亲只给我留下了可怜的几百万美元。现在我有几十亿了。这证明了我的借贷能力。Drumpf 2016 # selfmademan。”与此同时,音高完美的词汇选择让@DonaldDrumpf呼应了好斗的特朗普的语气,正如AnalyzeWords的资料所显示的,大量的负面词汇,如“可怜的”,将Drumpf的感知愤怒水平推高到红色区域。虽然这是Twitter上的口技表演,但讽刺作家自己的喜剧风格将不可避免地在目标声音中传递喜剧信息时表现出来。我们看到在上面的配置文件中,讽刺作家就大,在每一个可衡量的方面的特朗普的人格更提升感官维度借给他感性的自己feelings-except最明显的两个方面表现出来在特朗普的自己的微博:傲慢和积极性。和讽刺而削减是有时转达了# selfmademan等用一个简单的标签,我们期望的合并成一个单一的推特朗普说,我们希望他的批评者称经常要求精心设计了一个反事实的逻辑,服务促进Drumpf人为高水平的感知到的解析性。
现在来看看一个名叫deepdrumpf的讽刺特朗普的推特机器人的简介:
deepdrumpf机器人由麻省理工学院博士后研究员布拉德利·海斯(Bradley Hayes)设计,演示了循环神经网络的使用,特别是长短期记忆(LSTM)网络,以人类范例的语言模式训练生成系统,例如,一个人的演讲和推文的文本。20世纪60年代的实验性垮掉派作家使用了布里翁·吉辛(Brion Gysin)和威廉姆·s·巴勒斯(William S. Burroughs)的切割方法,将其他作家的文本分割成小说的形式,人们希望这种方式既保留了原作的主题,又打破了原作固有的clichés。@DeepDrumpf使用LSTM的深度学习技术作为其对剪刀和粘贴的统计答案,以达到几乎相同的目的:将经过验证的语音文本剪切成训练数据,以便学习如何以共振但奇怪地熟悉的方式将它们再次粘在一起。@DeepDrumpf的黑色讽刺并没有像@DonaldDrumpf那样严谨的喜剧风格,但作为对分词方法的证明,它的输出对其目标的clichés的破坏性可能就像人类讽刺作家写的任何东西一样。下面这条推文是deepdrumpf转发和收藏最多的推文之一,融合了特朗普的几个主题——从反移民墙到“你被解雇了!”“我可以越过墙把一个人解雇,毁了他的生活。”我一直在做的就是杀人,创造就业。@HillaryClinton。”与非常人性化的@DonaldDrumpf不同,@DeepDrumpf力求人类讽刺作家的喜剧一致性,以便每条推文都值得转发。然而,由于我们对机器人的标准与Twitter上的人类创造者不同,我们将很高兴地与机器人参与一个合作过滤的共同创造过程,通过将我们的转发和喜爱赋予某些输出以集体好评。虽然人类创造者也能从狂热粉丝的口碑营销中受益,但我们不希望我们的机器人只是搭别人的顺风车,而是成为共同创造过程的积极组成部分。 Like Duchamp recognizing the aesthetic merits of a lowly object that many others have scorned, we become connoisseurs of the generative垃圾箱里找到当我们欢呼这些意外的bot意义。
由此产生的向量充当了账户个性的代表针;当性格发生变化时——比如说变得愤怒或多或少——指针就会抽动。
随着机器人的发展,@DeepDrumpf倾向于不恰当地运行它的嘴巴,努力把尽可能多的内容挤进它的一口大小的推文中。因为它的内容来自其目标的分解和重组推文,它的输出传达了放大的特朗普个性。如上图所示,机器人点亮了AnalyzeWords测量到的所有尺寸的面板,除了感官尺寸。从特朗普自己的话来判断,他不是一个会详尽或公开表达自己感受的人,他更喜欢表现出爱和钦佩的感觉他)在他对他们的愤怒发出声音时,在别人身上。在决定哪个讽刺账户可以更好地捕获唐纳德特朗普的人格,甚至想象一个根本可能有个性,这似乎甚至想象。@ Donalddrumpf基本上是特朗普和人类创造者的融合,而@ Deepdrumpf的个性再次是别的东西,夸张(然而削弱了数字über-Trump的个性。事实上,每个Twitterbot都有个性。它可能是钩子宠物或宠物岩石的个性,但它是一种个性。鉴于我们释放我们的机器人在一个广泛的社交网络上,我们释放了我们的攻击,人们如何判断他人的性格以及他们如何推文Twitterbot可能是人工实体,但每个Twitterbot都是人工社会实体靴子。
通过将Twitter账户分配到11个尺度中的每个特定点上,AnalyzeWords有效地将该账户映射到11维空间中的一个点上。如果我们从这个空间的原点(全部为零)画一条线,通过这个点,得到的向量就像一个代表人物个性的单针;随着个性的改变——比如,当它的推文变得或多或少愤怒,或多或少与他人协调时,指针就会在空间中抖动。现在,想象一下所有Twitter用户的指针,指向不同的方向,并随着每条新推文微微移动。当两根针似乎指向同一个方向,在向量空间中只留下很小的夹角时,我们就可以说对应的Twitter账户表现出了高度相似的个性。我们只需要测量两个向量夹角的余弦值来估计它们的相似度,因为0度角的余弦值是1,180度角的余弦值是-1。因此,为了估计@realDonaldTrump与@DonaldDrumpf或@DeepDrumpf或您选择的任何机器人的相似性,我们可以简单地测量它们的AnalyzeWords向量之间的角度。
作为一个例子,让我们比较@realDonaldTrump和@ lord_伏地魔t7的AnalyzeWords配置文件。我们做出这个选择的原因很快就会变得很清楚,但让我们继续假设,一位总统(或总统候选人)的推文与那些假装自己是黑魔王的人的推文是完全不同的。在2016年7月中旬的抽样中,@realDonaldTrump的个人资料产生了以下向量:
<分析: 54,愤怒的: 65,傲慢的: 71,抑郁: 55,及时的: 47岁可怜的: 51,插入: 47岁感觉: 47岁宽大的: 50,乐观的: 55,担心: 67 >
为了区分每个维度的高分和低分,因为每个维度都有相反的语义解释——低分的Angry实际上意味着Calm,毕竟,我们从每个值减去50,这样维度就会从−50到+50:
<分析: 4,愤怒的: 15日傲慢的: 21日抑郁: 5及时的:−3,可怜的: 1、插入:−3,感觉:−3,宽大的:0,乐观的: 5担心: 17 >
相反性格的针将指向非常不同的方向。因为我们想标准化每个向量使其在向量空间中的长度为1,我们首先用标准的欧氏度规计算向量的长度,即每个维度平方和的平方根,得到32.388。我们现在可以通过将每个维度除以这个长度来标准化向量,得到:
< 0.124、0.463、0.648、0.154−0.093,0.031−0.093−0.093,0.0,0.154,0.525 >
当我们现在用欧几里得度规计算这个标准化向量的长度时,我们看到它的单位长度是1.0。通过比较,@ lord_伏地魔t7的配置文件如下:
< 0.266、0.434、0.374、.072−0.012,0.229−0.012−0.29,0.157−0.314,0.579 >
为了计算单位长度的任何两个矢量之间的角度之间的余弦,我们必须通过求解每个载体的相应尺寸的乘积来计算两者的点产物。因此,用于@ReaLdonaldTrump和@lord_Voldemort7的载体的点产品为0.7795。回想一下,两个账户的分析型材概况越相似,那么他们的向量越近,值越近的值为1(相反,轮廓越多,它将越近,它将是-1)。通过此次来调用,0.423表示只是一个适度的相似性,而0.7795则表示@reamldonaldtrump和@ lord_voldemort7之间的深度相似之处。事实上,如果我们使用AnalyzeWords.com来分析在Twitter上(如排名由TwitterCounter.com)最跟着账户695,我们发现,@ Lord_Voldemort7是在我们的矢量空间最接近他们都@realDonaldTrump的,与轮廓的家庭的人创造者和尖锐的讽刺讽刺家Seth Macfarlane充当了0.6237的相似性。相反,流行歌手Carly Rae Jepsen(@Carlyraejepsen)是所有695个型材的最具不同的,展示-0.7197的(DIS)相似于-0.7197至@reamldonaldtrump。在矢量空间术语中,这些名人的个性针长扬声器坚决地指向相反的方向。
托尼省是都柏林大学学院计算机科学的副教授。
迈克·库克是法尔茅斯大学的高级研究员。
twitter机器人:制造有意义的机器将于2018年9月4日由麻省理工学院出版社出版。版权所有©麻省理工学院2018。







