W.è不知道我们的客户的样子,”克雷格·伯曼,在亚马逊全球通信副总裁,以说彭博新闻2015年6月。贝尔曼正在响应公司的同日送货服务歧视着颜色人民的指控。在最文字的意义上,贝尔曼的防守是真实的:亚马逊根据成本和福利因素,如家庭收入和交付可访问性选择当日送货区域。但这些因素由邮政编码汇总,这意味着它们携带了具有形状的其他影响 - 并继续塑造 - 我们的文化地理。看着当天的服务地图,对肤色的对应很难错过。
这样的地图呼吁思想罗伯特摩西这样的人,大师策划者,几十年来,塑造了现代纽约市及其周围郊区的大部分基础设施。耻辱,他不希望穷人,特别是穷人的色彩,使用新的公园和海滩,他在长岛上建造。虽然他曾经努力通过公共公共汽车的法律,但摩西知道法律可能会被废除。所以他建造了更持久的东西:太低的立交桥太低,让公共公共汽车通过,字面上的混凝土歧视。这些和数十种类似决定的效果是深刻和持久的。几十年后,公交法律实际上已经推翻了,但是镇上的城镇仍然像以往一样隔离。“立法总是可以改变,”摩西说。“一旦起来,它很难撕下桥梁。”
今天,一套新的超高速公路,由旧结构的数据构成,刷新这些分裂。虽然新基础设施的建筑师可能没有同样的阴险意图,但他们也不能宣称无知。大数据从业者明白,亚马逊和其他公司用于提供定制目标服务的大型丰富详细的数据集不可避免地包含皮肤颜色,性别和性别和政治定位等受保护属性的指纹。算法基于此数据的决定可以隐形,以与它们不道德的方式打开这些属性。
所选择的是什么是最容易量化的,而不是最公平的。
凯特·克劳福德(Kate Crawford)在微软研究院(Microsoft Research)调查算法偏见,并与人共同创立了“人工智能现在”(AI Now)计划,该计划专注于人工智能系统在今天的使用过程中所带来的危险。她告诉我,算法公平性的一个基本问题是,算法在多大程度上能够理解它们所使用的数据的社会和历史背景。克劳福德说:“你可以让操作员考虑数据本身代表人类历史的方式。”“你怎么训练机器做到这一点呢?”不能以这种方式理解环境的机器充其量只是将制度化的歧视传递下去——这就是所谓的“偏见进来,偏见出去”。
不完整的努力纠正隐藏的好恶,可能使事情变得更糟。克劳福德的同事,美国康奈尔大学的索伦Barocas,已经观察到,最终用户可以“不加批判地接受供应商的索赔”是算法已洁净的偏见。这是特别真实的应用程序,比如司法系统,那里的现状充满了偏见,有很大的诱惑力,以更客观的机器的承诺。剥离了算法的偏差也可以要求享有特权意味着什么是公平超过主观的定义,另一个,通常得到什么选择的是什么是最容易量化的,而不是最公平的。
对于所有的陷阱,不过,发现和打击的数据和算法偏差还附带了一个充满机会的条子:它可以使偏见的轮廓,以新的方式可见。
COMPAS是在美国法院使用的一块软件。该计划估计被告是如何根据他或她对137个调查问题的回应来重新冒犯的可能性。然后使用此估计来告知保释决策。
COMPAS问卷不会询问肤色,遗产甚至邮政编码。但它确实提出了被告是否在一个附近生活在一个“犯罪”附近,以及他们是否遇到努力找到“超过最低工资的工作”。这些问题更适当地构成了一个社会,而不是个人,强调它们中的偏差:答案与受保护属性相关,包括种族,这意味着算法可以有效地学习数据中的这些属性。然而,Compas背后的公司Northpointe声称已经校准了Compas,以便其重新阻止预测的准确性与肤色无关。
2015年,ProPublica的记者开始使用COMPAS客户——佛罗里达州布劳沃德县——的公共记录来测试这一说法。他们发现,当COMPAS预测一个被告是高风险的,并且被告实际上再次被捕时,从最直接的意义上说,它的预测确实是色盲的。但当COMPAS的预测不准确时(要么在没有发生的情况下预测再次被捕,要么没有预测实际再次被捕),它通常会低估白人的再犯概率,而高估黑人的再犯概率。换句话说,它包含了一种在一组统计数据中隐藏的偏见,但在另一组数据中却显而易见。
Propublica报道了一篇关于副标题的文章中的这一发现“在全国各地使用的软件来预测未来的罪犯。它偏向黑人。“Northpointe对他们的评估有争议,并用统计回答再保险- 分析他们的索赔。Northpointe以错误率的差距转移了争论,而是专注于风险分数反映实际,潜在的普遍存在的事实:更多的美国黑人被告实际上正在重新逮捕。他们争辩说,他们认为它们具有较高的风险分数作为人口并不令人惊讶。
在Northpointe的争论中心是一个基本主义的谬论:因为被归类为非洲裔美国人被归类的人在培训数据集中被重新被逮捕,他们声称,Compas在预测这一点方面是合理的其他被警察分类为美国黑人的人 - 即使在不同的城市,国家和时间段 - 更有可能重新被捕。分类为数据的循环然后返回分类回波W.E.B.Dubois'1923的定义,“黑人是那个必须在格鲁吉亚骑Jim乌鸦的人。”
大数据年龄的巨大好处之一是我们决定的逻辑可以正式分析,并以先前不可能的方式进行数值挑选。
虽然这一事件说明了许多的算法决定的危险,这也产生了来到了一个令人吃惊的结论学术研究的膨胀:分配风险评分为被告的想法需要这个词的两种不同的和不兼容的定义之间的权衡“公平的。”更重要的是,这种权衡是普遍的。“承载了这个过程的任何系统都会有这样的挑战,”乔恩·克莱因伯格,在康奈尔大学计算机科学教授,告诉我,“无论是一个算法或人类决策者的系统。”
克林伯格和他的同事们发表的一项研究证明,通过Northpointe和ProPublica使用的公平性的两个定义是数学上是不相容的。在技术方面,我们今天所看到的是,预测奇偶校验(风险评分是否有黑色和白色被告相同的整体精度)和错误率平衡(风险评分是否得到相同方式的结果错了,针对不同人群)是互斥.当结果测量-再逮捕的基本速率,在的情况下COMPAS-是任意两个组之间不同,在施加相同的标准,以两组将必然引入误差率偏压抵靠具有较高基本速率组中。“‘校正’是什么导致了这个问题,”克莱因伯格说。这是任何系统的真正使用风险评分,无论是机器算法或人的机构,不管是什么因素,使用它来生成它们。
值得注意的是,此前从未显示过这种不相容性。它的发现指出了大数据时代的大益处之一:我们决定的逻辑可以正式分析,并以以前不可能的方式进行数值挑选。因此,法官现在知道在他们所做的决定中考虑这些更广泛的不平衡。“Propublica Surfacated的问题真的是关于我们如何考虑预测,以及我们如何考虑算法,”Kleinberg说。
学者们还建议康巴丝如何被固定。Alexandra Chouldechova, professor of statistics and public policy at Carnegie Mellon University’s Heinz School, has shown that if COMPAS’ designers allow it to be slightly more inaccurate overall for Afro-American defendants, they can ensure that the algorithm makes mistakes at the same rate for different races. “This,” she observes, “may be a tradeoff you want to make.”
G谷歌翻译隐藏着性别歧视。要明白这一点,可以试着翻译“o Bir Doktor.“ 和 ”o BirHemşire.”从土耳其到英语。由于土耳其短语使用性别中立的代名词“O.”谷歌翻译被迫选择本身就是一个性别的代词。其结果是:它翻译第一个词组“他是个医生,”第二要“她是一名护士。”
该翻译是波士顿大学的Tolga Bolukbasi和同事们2016年发表的一篇论文的重点,该论文是一种被称为单词嵌入的语言模型的例子。这些用于支持翻译服务、搜索算法和自动完成功能的模型是在收集的自然语言体(如谷歌News文章)上训练的,通常没有人类语言专家的太多干预。模型中的单词被映射为高维空间中的点,因此给定一对单词之间的距离和方向表明它们在意义上有多接近,以及它们有什么语义关系。
例如,“男人”和“女人”之间的距离大致相同,而且方向相同,因为“国王”来自“王后”。单词嵌入模型也会使隐藏的偏见持续存在,比如谷歌翻译。这个基础设施,几十年来以数字语料库收集的数十亿文本,正开始以难以理解和改变的方式告知我们的日常交流。但基础设施编码的许多偏见早于它们以数字形式制度化。而且,与COMPAS一样,研究这些在算法中出现的偏差提供了一个新的机会。
Bolukbasi和他的同事通过在嵌入模型中的空间内移动单词来设计了“去偏见”语言的技术。想象一下,把“医生”,“护士”,“男人,”和“女人”到广场的积分,与底部和医生和护士在顶部的男人和女人。连接医生和护士的线与男人和女人之间的直接平行。结果,系统将其与类似的关系视为。Bolukbasi的脱叠策略将医生和护士推向顶部边缘的中点,以便“医生”和“护士”与“男人”和“女人”的距离相同。系统有效地“忘记了”比喻;那么翻译可能使用的代词是一个留给系统设计人员的选择。
在最佳情况下,数据基础设施将迫使我们揭露和面对我们的公平和决策的定义,以便我们在没有它的情况下我们可能没有。
词语之间的换档关联的影响可以相当大。普林斯顿大学计算机科学教授Arvind Narayanan开发了一种衡量机器学习模型的偏见的工具,以及同事艾伦卡斯坦和乔安娜布里尼顿。三重奏开始具有许多学习的心理措施,称为隐含关联测试。在测试的常见变体中,速度越大,受试者肯定与反映社会类别的单词的正面词语的协会,与该协会的轻松越大。在许多这样的配对上,响应时间的平均差异 - 通常在毫秒的顺序 - 是隐式偏置程度的量度。Narayanan和同事交换了响应时间,用于单词之间的距离,创建他们称之为嵌入关联测试的词。嵌入关联测试中的单词复制了相同的刻板印象集,在同一组单词上识别了隐式关联测试研究。
二十多年来,隐性关联试验已经暴露了各种隐含的偏见,从性别到跨越种族,以及在许多不同的背景下。因为偏见是如此普遍的,有些人推测了自然人倾向 - 例如占主导地位等级,而在组识别 - 负责这些偏差;在这种观点中,偏见是人性的不可避免的事实。嵌入协会测试纸的作者推测,他们的工作支持另一个,虽然不是独家的可能性:“仅仅是对语言的接触有助于我们思想中的隐含偏见。”换句话说,如果偏见反映,因此在语言本身的统计中传输,那么我们说话的方式并不只是通过互相观看的方式进行传达,它构建它。如果像Bolukbasi这样的偏见项目可以工作,我们可以开始以规模和以前不可能的方式转移我们的偏见:使用软件。如果他们没有,我们面临着通过可能持续几代的数字基础设施加强和延伸这些偏差的危险。
T.他认为你能做到这一点是非常酷的,”Narayanan告诉我。不过,他想知道这能走多远。他指出,Bolukbasi的论文假设性别是二元的,或者至少有性别的单词之间的联系是一条直线。他警告说:“我不认为(我们)有任何线索知道(去偏化)如何适用于一个可能稍微复杂一点的概念。”他特别指出种族刻板印象,其中类别的概念和定义它们的方法一样有问题。
当我向Bolukbasi询问这一点时,他回应了这种方法,原则上可以使用任何数量的类别,尽管他承认它确实需要离散类别,但定义了先天的.他使用从亚马逊的Mechanical Turk(一项名为“人工智能”的服务)中招募的众工来决定他的性别工作的类别。这些工作人员还评估了哪些类比是有偏差的,以及该程序消除这些偏差的成功程度。换句话说,关于什么是有偏见的决定,以及消除偏见意味着什么,仍然与社会共识的中间值紧密相关,编码了一种民粹主义对进步的刹车。
甚至有更令人生畏的问题。Barocas和Crawford最近指出的是,大多数在算法上的公平工作的工作都集中在所谓的“拟议危害” - 资源分摊,例如当天服务或判断,如风险分数。他们要求更多地关注贝尔钩词“代表危害”这样的关键赛学者。例如,Google Image搜索“CEO”,产生了白色男性压倒性的图像。Narayanan says that these problems may be overlooked in discussions of fairness because “they are harder to formulate mathematically—in computer science, if you can’t study something in formal terms, its existence is not as legitimate as something you can turn into an equation or an algorithm.”
在最糟糕的情况下,关于我们对数据偏见的偏差处理的这些和其他限制将使我们建立这一代的混凝土桥梁的算法,将现状推出到未来几年。在最佳情况下,数据基础设施将迫使我们揭露和面对我们的公平和决策的定义,以便我们在没有它的情况下我们可能没有。
这种紧张关系很难用我们平常的技术进步观念调和。人们很容易超过社会更快假定技术变革和软件可以通过快速编码的新规范,并从回归或恶意行为绝缘他们加强社会进步。宣判算法可以少做伤害比公然顽固法官。但它也可以掩盖偏见和阻碍,甚至预先排除,进步的历史和背景。基础设施是粘和的机会之窗正在缩小:技术可以在未来改善,但我们正在做什么权衡做出决定现在.目前尚不清楚频率,甚至我们是否能让机会重新审视这些权衡。
毕竟,越来越普遍的算法变成了,它们的可能性越少。虽然我们可以每两年升级我们的手机,但更强大的障碍对核心软件基础设施进行了强烈的障碍。例如,考虑到了许多日期技术渗透了我们的生活 - 空中交通管制系统,这主要在20世纪70年代建造的软件上运行。最近的“Wannacry”蠕虫,即英国的瘫痪医院系统利用了这些系统在几十年的窗户上运行的事实,微软甚至不打算维护。一种机器理解语言,嵌入在核心服务中,可以持续多年或几十年的偏见。用艺术家妮可Aptekar的话语,“基础设施击败意图”。
新的数字基础设施的最大危险并不是它将腐烂或易受攻击,但其最糟糕的功能将持续存在。一旦它起来,它很难撕下桥梁。
Aaron M. Bornstein是普林斯顿神经科学研究所的研究员。他的研究调查了我们如何利用记忆来理解现在和计划的计划。
原铅图像:DMITRIY Domino / Shutterstock








