首页>科技 > 正文

促进公平的灵丹妙药？马斯克的推特算法开源计划远比想象复杂

2022-04-29 17:42:58来源：澎湃新闻

“在这个机器学习的时代，重要的不是算法，而是数据，”麻省理工学院计算机科学家David Karger接受WIRED采访时表示，“让Twitter重要的不是算法，是发推文的人。”

在Twitter接受440亿美元收购后，埃隆·马斯克已为Twitter制定了一系列宏伟构想。这其中最被热议的就是“开源算法”，一部分人认为这会创造一个更公平的世界，同时也有专业人士对其可行性表示怀疑。

马斯克在其收购出价被披露之前就提出了这个计划，在他的报价被披露的那天重申了这一计划，并在交易确认后再次提出了这个计划。

在4月14日的TED演讲中马斯克概述了这一提议，“真正重要的是，人们既有现实又有感知，即他们能够在法律范围内自由发言。所以我认为Twitter应该做的一件事就是开源算法。”马斯克认为，披露升级或降级推文的算法将降低“幕后操纵”的风险。

“它有可能将Twitter变成一个真正值得信赖的平台，用户可以理解为什么某些推文会出现在列表的顶部，并且所有关于幕后保密或偏见的担忧都将被消除，”开源数据库公司EDB首席技术官Marc Linster说。

Twitter联合创始人也是前CEO的Jack Dorsey也是明确的支持者，他提出，使用什么算法或不用什么算法的选择应该开放给每个人。

然而确定Twitter上什么主页内容时间线的机制通常极其复杂，并涉及审核和过滤、付费内容推广和用户分析等内容。推文排名背后的内容、用户资料、算法训练数据、审核规则及训练模型的代码，这些构成了一个庞大的数据池，很难搜索并且传播成本很高。

“当我们谈论‘算法’时，它实际上是数据处理和人工干预步骤的复杂组合，加上使用历史数据训练的算法模型。核心算法的开源版本可能不会告诉我们Twitter上的内容实际上如何形成，拥有代码当然也不足以真正理解平台的工作原理，因为它的实际行为取决于输入到其中的数据。我认为Twitter不太可能出于明显的商业原因披露大量此类数据，并且，对于不公开的推文，这种分享在许多情况下会违反隐私规则。“近日，爱丁堡大学贝叶斯数据科学和人工智能中心主任Michael Rovatsos接受TECH MONITOR采访时说道。

荷兰Jheronimus数据科学学院高级研究员Daan Kolkman同意将算法开源“似乎是一个好的举措”，“但在实践中，它很可能只不过是一种象征性的姿态。这一切都取决于它将如何准确地开源。”

他解释说，“仅仅访问算法并不足以确保公平。要进行可靠的算法审计，除其他事项外，你还需要访问用于训练模型的数据并深入了解开发过程。Twitter的算法可能经常更新，那么仅仅拥有一个快照并不是那么有用。”

“一般情况下，推荐模型会经常重新训练，并且会随着时间的推移而不断变化。虽然也可以持续发布所有经过训练的模型，但除非你确切了解模型中用于预测的输入和输出，否则它也不会很有用。”人工智能初创公司Abacus.AI的首席执行官兼联合创始人Bindu Reddy接受The Next Web采访时表示。

Twitter产品副总裁 Steve Teixeira也从技术性角度发表了意见，“你不能简单地开源一个ML（机器学习）模型，就像它是一些泡泡按排序冒出一样”。

同时，这样的开源也存在潜在风险。一方面，这些信息可能被竞争对手复制，为网络犯罪者提供用户隐私。另一方面，开源提供了发现漏洞和缺陷的新机会。

责任编辑：

标签：灵丹妙药

免责声明

头条新闻

2021年中国隐私计算市场规模突破8.6亿元人民币大关

4月25日，资本邦了解到，近日IDC发布《IDC Perspective: 隐私计算全景研究》报告。根据IDC报告显示，2...
有史以来最完整的人类基因组图谱绘制完成

4月1日，美国科学家领衔的国际合作团队在发表于《科学》的6篇论文中报告称，有史以来最完整的人类基因组...
政府引导基金出资9.3亿元天津科技型企业“底盘”不断壮大

记者从市科技局获悉，去年本市国家高新技术企业达到9198家，国家科技型中小企业9196家，同时在科技金融...
上海洋山深水港连创纪录 “无人码头”的硬核科技

集装箱积木般整齐堆砌，连绵的红色桥吊一望无垠。东海之滨，东海大桥以南，上海洋山深水港(以下简称洋山...
首次发现活动星系中心高速外流在百光年尺度上存在加速现象

国际知名学术期刊《科学进展》在线发表了中国科学技术大学物理学院天文学系王挺贵教授与刘桂琳教授团队...