事实如此浪漫

一个黑客语言和暴露美国秘密的计算机程序

O美国国家安全局(NSA)持续不断的监控丑闻最显著的影响之一是,它吸引了如此多的注意力,这是自9/11袭击以来在美国成长起来的庞大的秘密,官方世界。这些秘密行动最近经历了戏剧性的扩张吗当然,美国政府的秘密活动由来已久。这部分官僚机构发布了大量的秘密文件,人们早就知道,这些信息被分类是出于习惯,而不是出于必要。

许多学者,比如哥伦比亚大学历史学家马修·康奈利,希望能够访问政府隐藏的信息,但实际上并不需要。这就是为什么他领导了一个名为“解密引擎”(Declassification Engine)的项目,该项目旨在从解密的文件中发现更多信息,这些文件有很大一部分被编辑过,包括单词、短语,有时整个段落都被涂黑。考虑到解密的档案包括数亿页,手动浏览它们并不是一个可行的选择。因此,康纳利正在与计算机科学家合作,试图自动从文件中提取有用的信息。

解密引擎依赖于一种叫做机器学习的技术。研究人员并没有给计算机输入大量关于如何插入涂黑部分含义的手写规则,而是对系统进行编程,使其消化大量文件,并根据文本和编辑结果绘制统计关联。“我们可能永远无法完全理解官方的保密,”康纳利说,但最好的解决方案可能是直接向它投入大量数据。”(鹦鹉螺文章“数学是神话塞缪尔·阿贝斯曼(Samuel Arbesman)写道,与基于大量语法规则编写计算机程序的方法相比,这种技术如何实现更好的计算机翻译。)例如,该系统可以识别一份被多次解密的文件,其中不同的内容被编辑过。在这种情况下,它不仅可以合并来自不同来源的文本,还可以“学习”,在统计关联的意义上,什么类型的术语倾向于被修订,哪些术语在修订的部分附近发现,等等。以下是1989年和1998年发布的同一份文件的两个不同版本,不同部分进行了编辑:

反情报项目(counterintelligence Program,简称COINTELPRO)是一个秘密的、有争议的、有时甚至是非法的项目,目的是监视和扰乱国内政治组织。 解密引擎

该项目自去年启动以来取得的最大成功之一,是推出了“博尔德行动”(Operation Boulder)。这是一个鲜为人知的项目,旨在监控申请赴美签证的阿拉伯姓名人士。尼克松总统在1972年慕尼黑奥运会发生人质危机后制定了这个计划,尽管听起来像是从今天的报纸上撕下来的东西。大多数程序的公开描述仍是机密,但解密引擎上拿起“巨石”这个词出现在大量的外交电报,它往往存在于那些已经删除,指向它的灵敏度。

听到政府秘密部门的一些人并不完全对解密引擎感到兴奋,这并不奇怪。虽然它处理的所有文件都是公开的,但有些人担心“这些解密的文件可能具有突现性,整体大于部分,”用史蒂夫·阿夫特古德的话来说他是美国科学家联合会的研究员。即使是一些历史学家,他们很想知道一些秘密信息,他们也担心收集到的信息会说些什么;“马赛克理论”是情报界的一个重要观点,根据这个理论,一堆无关紧要的事实聚在一起,就会揭示出一些可能被用来伤害美国的东西。即使是对这种可能性的担忧,也可能会让政府工作人员决定将文件保密,而不是通过编辑来解密它们。

因此,解密引擎的研究人员正在走一条很细的线——如果它太擅长它的工作,它可能会发现自己脱离了一条线。


阿莫斯Zeeberg是鹦鹉螺“数字编辑器。

加入讨论