T这是一种奇怪的方式,其中对冲基金是一切的融合。有课程 - 两个西格玛,位于曼哈顿较低,管理超过500亿美元,这是6年内增长600%的金额,大致是保加利亚经济的规模。然后有人民金融家,哲学家,工程师 - 所有人都申请自己才能解除责任的模式,将财富与失败分开。
并且有科学和工程,大部分地依赖于高耸的数据。原则上,几乎任何关于现实世界的信息都与对冲基金有关。员工,所以故事去了,在港口露营地露出,并在油轮下载水线上,以及零售停车场计算汽车。然后,该数据必须标准化,合成,并可以为在市场上投注的人员访问。
构建工具这样做是阿尔弗雷德署的工作的一部分。作为两个西格玛的首席技术官,他负责公司建模者使用的工程平台。斯内克梅隆的IBM和前任计算机科学教授的前副总统已经看到软件在另一个行业之后改造了一个行业,并使自己的贡献超过了他自己的贡献。
他本月早些时候在两个Sigma总部的谈话中坐下来。
为什么像Two Sigma这样的公司要举办公开比赛?
我们开始Halite AI编程竞赛因为我们希望在科技界中闻名,以便做科技社区喜欢的事情。游戏比赛是其中之一。类似于有趣的编程挑战的程序员 - 特别是他们可以做出偏离时间的挑战。再加上我们开源所有内容,以便程序员实际上可以看到游戏环境,并了解游戏的一切。这为程序员提供了许多创造力的机会,即如何播放游戏,并且变得更有趣。
你注意到竞争对Two Sigma品牌有什么影响?
我们注意到,当我们进入校园时,人们对我们的了解更多了。我们还聘请了排名靠前的人。
游戏的目标是什么?
今年和去年的游戏都是回合制策略游戏。去年在Halite 1中,有2到6个机器人在董事会上启动。在游戏中,每个机器人都以一个棋子开始,它可以向上、向下、向左或向右移动。它也可以静止不动,这样它的力量就会增强。如果它移动了,就会在原来的位置留下另一块,所以你这边的棋子数量会增加。所有的玩家都是在一个大概有40或50个棋子的网格中进行操作,所以机器人可以做出大量不同的移动。今年的游戏《Halite 2》在许多方面与之相似,但它使用了太空战争主题,即一艘飞船可以移动到一个星球并接管这个星球。当你把所有这些放在一起时,人们会想出非常有趣的获胜策略。

奥运会出来的一个有趣的策略是什么?
在去年比赛的最后一周出现了一个有趣的、出乎意料的策略。这是一种非侵略策略。有些玩家认为,如果他们能够放松一段时间,而不是试图打败其他玩家,而只是试图获得空间并远离麻烦,这便能够帮助他们。保持进攻性的玩家实际上会伤害到自己,而不具有进攻性的玩家实际上会处于一个中等高概率的位置,获胜。
机器学习如何与游戏策略相关?
今年,我们非常关注提高玩家使用机器学习的能力。事实上,我们为玩家在谷歌云中使用gpu(图形处理单元)提供了有限数量的谷歌积分,这允许进行非常快速的机器学习算法训练。我们制作了所有已经玩过的游戏的回放,这样机器学习系统就可以看到它们,并尝试学习如何更好地玩游戏。机器学习能在像Halite这样复杂的游戏中发挥多大作用还有待确定。
算法方法和机器学习方法的区别是什么?
计算机总是执行代码,代码体现了某种形式的算法。当我们想到机器学习时,这些算法从数据中学习,实际上是自我修改。我们认为经典算法是预先指定了一切。机器学习算法有更多的自由度。他们从他们所处的环境中学习。
当我们进入校园时,人们对我们的了解更多了。
两只西格玛如何获得其数据?
我有点把它比作经济数据的电磁波谱照在我们身上。我们看到特定的频率,而看不到其他的。当然,我们得到蜱虫数据。我们了解公开市场中可交易实体的价格和数量。我们得到了基础数据。我们从很多渠道获得收入数据和类似的东西。有时我们能得到华尔街卖家对股票的兴趣数据。我们有一个叫做PICS的产品,它可以让卖家告诉我们他们在推荐什么东西。我们和他们都从中受益。
机器如何解释这种伟大的数据?
一种方法是人有一个假设。例如,我们可以假设某些东西会对某些安全的估值产生影响。我们可以做的是创建该预测模型的数学表示,然后看看该假设是否已被证明是正确的。我们在两个西格玛进行了巨大的测试。这是假设驱动的工作,并以一种形式为单位,它一直是投资很长一段时间的主干。另一种方法是在很多数据和一些经济结果下发送某种形式的机器学习算法,说出股票价格或类似的东西,看机器是否可以弄清楚模式。这是一个更具挑战性的事情,因为,即使你得到一个积极的结果,你也不一定觉得你知道为什么。
人类如何学会解读机器学习?
我认为一种方法是尝试并查看你可以给出的不同类型的函数的输出。也许一个深入的学习算法将预测天气。您知道它知道气压,温度,风力条件等。现在让我们说你迭代许多这些元素,你看看预测如何改变。然后,您可以说:该算法似乎对快速温度变化非常敏感。你开始了解算法所做的内容,你开始获得解释力。
在这个过程中是否总会有人参与?
不一定。你可以想象,有一种方法可以决定你发送给系统的数据的正交平面。您可以获取许多数据元素,然后将它们输入系统,并以自动方式查看会发生什么预测,并尝试从中学习。你可以想象另一个学习算法在第一个学习算法的基础上。
我们应该谨慎对机器学习的意外后果吗?
有一个非常好的论文,即加强性别偏见作为意外后果。想象一下,您构建了一款机器学习系统,旨在向将向那些点击这些广告的人提供广告。如果您向首席执行官职位显示广告,那么随着世界的状态,当今世界时,可能更有可能是男性会点击它们。如果这是真的,那么做机器学习的系统可能会学会在男性经常光顾的出版物中宣传CEO广告,从而无意中颁布不良偏见。我注意到该算法的团队建立了这一算法的意外后果。我谈谈了,称为数据科学的机会和危险,在那里,我们认为我们现在有更大的需求,现在以各种道德问题教育工程师和数据科学家现在,因为数据科学变得更加普遍。
需要满足这些教育的如何?
我们需要训练各行各业的人,让他们对技术有更多的理解。我们已经看到它在发生。我们看到更多的高中有计算机科学和编程培训。我们在大学里看到的更多。事实上,计算机科学已经成为一些大学最大的专业,比如斯坦福大学。你可以看到,在其他一些优秀的大学,计算机科学入门课程的注册人数确实在增加。我认为这一切都是好的。
特别是记者需要更好地了解数据和算法。
在计算机科学的世界中,我们希望我们能够制定大量数据,记者和政治学家可以使用该数据来实现科学有效的结论。我们希望世界变得成为,如果你会的,更真实。实际发生的似乎似乎是相反的。记者具有如此多的数据,通过选择要使用的数据,他们可以得出许多不同的结论。不可否认,正如任何被采取统计阶级的人知道,从数据中汲取真正的有效结论很困难。很多数据也是错误的,这使得它更容易跳到真正恶劣的结论。但这一切都为记者提供了一个人的机会,这些人以真正良好的使用数据的严谨方法。但坦率地说,许多记者和公众的许多成员都不知道如何正确解释数据,这也是一个很大的风险。目前,我们似乎对后者有更多的问题。
教育读者是解药吗?
我想我们需要读者的教育,但我也认为我们需要向记者的教育。随着我们今天的数据科学,可以获得世界上大量高度详细的事件的数据,并且该数字只会增长。提供了如此多的细节,我们如何在我们周围的大型世界中以透视透视提供这些详细的事件?单个物品,如某种工程失败或事故可能或可能不会具有重要的社会影响,但它只能在背景中判断。这是一个记者做的一件很难的事情。公众成员甚至更困难。所以,我认为我们将更加依赖记者。和记者正在需要很多角度。
在比赛的最后一周出现了一个有趣的、出乎意料的策略。
机器学习可以用来帮助教育吗?
当我还是孩子们的父亲时,我们已经有了阅读辅导老师。这应该是13年前的事了。我爱他们。我的孩子们很喜欢。我不知道为什么它们在美国的教育中不是更常见的一部分,但更重要的是,在一些文盲更多的发展中国家。如果我们将这些类型的沉浸式导师扩展到更多领域,并添加机器学习和人工智能技术,这些导师可以产生广泛的影响,并可以使自己适应我们孩子的学习风格。有充分的理由认为,他们将更像一个单独的导师,而不是一个大型的大学讲座课程。有趣的是,Halite是沉浸式教育节目的一个很好的例子。
您希望看到哪些数据集向公众开放?
我认为有了正确的数据,医学领域会有巨大的机会。我们需要建立正确的表型、遗传学、疾病等数据集。这些全面的流行病学信息数据库可能不会直接产生我们需要的答案,但它们会提供大量的假设,我们的医学研究人员会觉得非常有趣。你可以看到这种情况在23andMe开始发生,尽管它主要集中在基因数据上。想象一下,我们可以在全国所有的医疗机构中这样做,我们真的,真的去研究所有这些数据。
您是否对保存医疗数据如此碎片的内容有任何意义?
问题是,首先,作为一个社会,我们真的很担心这些数据的隐私。确保病人的隐私是非常复杂的,会减慢数据在科学上的应用。第二个问题是数据本身其实非常复杂。在一个机构收集的数据可能不能与在另一个机构收集的数据直接进行比较。第三,很多数据是错误的。几年前有一篇文章科学新闻记者报告称,她自己的肠道生物群系从两个独立实验室的评估差异很大。最后,总是关注数据的所有权,以及可能以某种方式的前景是财务价值的。
你对机器学习的新方法是什么兴奋?
人们试图找出探究因果关系的机制,比如问“为什么机器会得出一个特定的结论?”另一个领域是所谓的“对抗性”网络。机器学习在许多环境中都能做得很好,但它也可能被愚弄。一种算法称黑色和黄色的条纹是一辆校车。必须对如何实际处理这些对抗性的方法和系统进行更多的研究,这可能成为滥用的挑战。第三个领域是强化学习,即电脑为了学习而与自己对抗。通常,这是非常耗时和缓慢的,但研究人员正在研究知识表示,以便算法可以在一个领域学习,然后将一些知识转移到另一个领域,这将使强化学习更快。我最终相信在“组合假说”中,我们将通过推理等其他方法来增强机器学习,从而构建真正智能的系统。
你是怎么对科学感兴趣的?
我对计算机科学感兴趣是因为我在大学里学的经济学课程需要数学,而数学课需要一些编程。我非常迷恋那门课上的编程,它对我来说是非常自然的。我还迷恋上了一些在20世纪70年代看似可信的模型。当时很多人都对自然资源的限制感兴趣担心我们会耗尽石油,无法养活不断增长的人口,等等。所以,很多几乎马尔萨斯模型开始被完成,我发现这是最有趣的。我应该补充一下,我感兴趣的另一个原因是,我在上大学之前曾是一名披萨厨师,我的工资是每小时2.15美元。编程更赚钱。








