反思 Youtube 算法：个性化内容推荐能毁掉你的人格

2018-02-12 09:17:00

编者按：《卫报》近日发表了一篇长文，披露了Youtube的算法是怎样歪曲事实的。

洛根·保罗（Logan Paul），一个Youtube上的大V，在日本以自杀闻名的森林中偶然发现了一个挂在书上的死人。一开始刚刚22岁的他显然被吓到了，然后他竟然被这一情形逗乐了。“伙计，他的手是紫色的，”他说，然后转向他的朋友们咯咯地笑。“你从来没有站到过一个死人旁边吧？”
保罗将这个场景拍了下来，传到了YouTube上。他的YouTube频道有1600万名青少年用户订阅，24小时后，他在激烈的发对声中将视频删除。在这段时间内，视频获得了600万的点击量，并且在 YouTube 上令人垂涎的热门视频排行榜上占据了一席之地。
第二天，我在YouTube上看了这个视频的“复制”版。然后我点击视频播放器右侧展示的推荐视频缩略图。这种默认情况下自动播放的方式，是为了引诱我们在Google的视频广播平台上花更多的时间。我很好奇他们会把我引向何方。
答案是一系列关于男人嘲笑洛根·保罗青少年粉丝的视频，接着是闭路电视监控系统（CCTV）里孩子们偷东西的镜头，几段是视频之后，是孩子们用奇怪的自制的小玩意儿拔掉牙齿的视频。
我清除了我的历史记录，并删除了我的cookie，打开了一个私人浏览器，以确保YouTube不会针对我进行个性化推荐。然后，它们的算法就带我走上了它的意志之旅。最后的一个视频是两个男孩，大约五六岁, 互相拳打脚踢。
“我要把它传到YouTube上，”一个十几岁的女孩说，声音听起来像是她的姐姐。“转过身去，狠狠地揍那个小男孩。”他们扭打了几分钟，直到一个人把对方的牙齿打掉了。

人工智能算法驱动下的推荐系统

世界上有15亿的YouTube用户，远远超过了拥有电视的家庭数量。他们观看的视频是由算法塑造的，这个算法扫描并排列了数十亿的视频，来确定用户“接下来”的20个视频片段，这些视频都与之前的视频有关联，从统计数据上来看，也极有可能是为了让人着迷。
Youtube公司的内部人士告诉我，该算法是YouTube增长的最重要的引擎。关于这个算法如何运作的公开解释并不多，一篇学术论文概述称，这个算法背后的深层神经网络，分析了大量关于视频的数据和观看者的数据——YouTube的工程师将其描述为“现存规模最大和最复杂的工业推荐系统”之一。

推荐算法似乎并没有为民主的真实、平衡或健康而优化。
——前谷歌工程师纪尧姆·查斯洛特（Guillaume Chaslot）

最近，它成为了最具争议性的话题之一。这个算法被发现是在宣扬有关拉斯维加斯大规模枪击案的阴谋论，并通过推荐来激励发展一种亚文化，这种亚文化以儿童为目标，内容令人不安。例如, 英国儿童角色帕帕猪吃掉父亲或喝漂白剂的视频。
充满猥亵和暴力的视频也已经被算法分发到了专门针对儿童的应用程序YouTube Kids上。一位 YouTube 创作者被禁止从他那些奇怪的视频中获得广告收入——这些视频描述了他的孩子接受流感疫苗、去除耳垢和为死去的宠物哭泣。他告诉记者，这一切都是在迎合谷歌的算法。“这是让我们突破粉丝圈，并获得大量观看的方式，”他说。“我们学会了怎么利用算法，并尽一切努力来取悦算法。”
谷歌对这些争议做出了“打地鼠”式的回应：扩大人类版主的队伍，删除记者所发现的那些令人不快的YouTube视频，并将创建这些视频的频道降级。但这些举措都没有削弱人们的担心，即人工智能给YouTube带来了巨大的负面影响。
关于Facebook和Twitter对政治的影响，已经有了很多报道。但最近几个月，学者们推测，YouTube的算法可能在2016年总统大选期间助长了虚假信息。“YouTube是2016年最被忽视的故事，”广受尊敬的社会学家和技术评论家泽奈普·图费克奇（Zeynep Tufekci）去年10月在Twitter上写道。“它的搜索和推荐算法是错误信息传播的引擎。”
如果YouTube的推荐算法真的进化到能够分发更多的令人不安的内容，那么这是怎么发生的呢？它对我们的政治有什么影响？

“就像现实一样，但是歪曲了”

要回答这些问题并不容易。像所有大型科技公司一样，YouTube不允许我们看到影响我们生活的算法。它们是秘密的公式，专有软件，有专门的工程师被委托来处理这个算法。拥有人工智能博士学位的36岁法国程序员纪尧姆·查斯洛特就是其中之一。
在谷歌工作的三年时间里，他和一个YouTube工程师团队一起工作了几个月，他们正在研究推荐系统。这段经历让他得出结论，YouTube研究出的算法的优先级是有危险的。
“YouTube上的东西看起来就像现实，但这里面的现实被扭曲了，让你花更多的时间在网上。”当我们在加州的伯克利见面时，他告诉我。“推荐算法似乎并没有为民主的真实、平衡或健康而优化。”
查斯洛特解释说，算法永远不会保持不变。它不断地改变它给不同信号的权重：例如，用户的观看模式，或者在有人点击之前视频被观看的时间长度。
与他一起工作的工程师负责不断尝试新的公式，通过延长人们观看视频的时间来增加广告收入。“观看视频的时间是优先考虑的事，”他回忆道。“其他的一切都被认为是一种干扰。”
2013年，谷歌解雇了查斯洛特，表面上因为效率问题。他坚持认为，自己之所以被解雇，是因为在公司内部与志同道合的工程师合作，提出可以让人们看到的内容多样化的变革。
他尤其担心的是，过分关注向人们分发他们不可抗拒的视频，会扭曲现实，并创造出过滤泡沫，因为算法只是向人们展示能够强化他们现有世界观的内容。他说，他提出的修复方案没有被采纳。“YouTube可以通过多种方式改变算法，以抑制虚假新闻，提高人们看到的视频质量和多样性，”他表示。“我试着从内部改变YouTube，但没有任何作用。”
YouTube告诉我，公司的推荐系统已经发生了变化，现在已经再像之前那样过多关注观看时间了。该公司表示，在2016年，该公司开始考虑用户的“满意度”，例如，通过调查，或者观察一段视频收到多少“赞”，以“确保人们对他们观看的内容感到满意”。YouTube补充说，在2017年还实施了一些额外的措施，以改善搜索和推荐内容中出现的新闻内容，并阻止推广含有“煽动性的宗教或至上主义”内容的视频。
但该公司并没有说2006年收购 YouTube 的谷歌为什么要等上10年才做出这些改变。查斯洛特认为，这种改变主要是表面上的，并没有从根本上改变算法中演化出来的一些令人不安的偏见。在2016年夏天，他建立了一个计算机程序来进行调查。
查斯洛特写这个程序的初衷是为YouTube不透明的推荐引擎，提供世界上第一个窗口。这个程序模拟了一个用户的行为，他从一段视频开始，然后按照一系列推荐视频进行操作，来追踪数据，就像我看完洛根·保罗视频后所做的那样。
它通过一个单词搜索找到视频，首先选择一个“种子”视频，并记录下YouTube在“下一个”栏目中推荐的几层视频。它没有浏览历史记录，确保被检测到的视频是YouTube的一般性推荐，而不是个性化的推荐。它重复了上千次这个过程，积累了大量关于YouTube推荐的数据，从而建立了算法的偏好图。
在过去的18个月里，查斯洛特利用这个程序探索了YouTube在法国、英国和德国的选举、全球变暖和大规模枪击事件中分发的视频的偏见，并在他的网站Algotransparency.org上发表了他的研究成果。每项研究都发现了一些不同的东西，但研究表明YouTube的推荐系统放大了那些引起分裂、轰动和阴谋的视频。
当他的程序通过搜索“谁是米歇尔·奥巴马（Michelle Obama）”的问题找到了一个种子视频后。“下一个”栏目中的推荐视频中，大多数都说她“是个男人”。关于教皇的视频中，有超过80%的视频将这位天主教领袖描述为“邪恶的”或“反基督者”。上传到 YouTube 上的视频数以百万计, 以满足算法对声称地球是平的内容的兴趣。“在YouTube上，小说超越了现实，”查斯洛特说。
他认为，最令人震惊的例子之一是他在2016年总统大选前发现的。正如他在唐纳德·特朗普（Donald Trump）当选后发表的一篇简短、基本上不被注意的博文中所指出的，在总统竞选期间，YouTube 推荐算法的影响并不是中性的：它分发的视频主要对特朗普有利，对希拉里·克林顿（Hillary Clinton）不利。
“这很奇怪，”他向我解释道。“无论你从哪里开始，无论搜索特朗普还是搜索克林顿，推荐算法都更有可能将你推向支持特朗普的方向。”
因为在三个摇摆州获得了8万张选票，特拉普赢得了大选。在美国有超过1.5亿 YouTube 用户。在查斯洛特的Youtube推荐选举视频数据库中，这些视频在2016年11月的投票前，总共被观看了超过30亿次。
哪怕在视频中出现一点小小的偏见也是有意义的。“塑造我们所看到内容的算法会产生很大的影响，尤其是对那些还没有做出决定的人，”牛津大学数字伦理实验室的教授卢西亚诺·弗洛里迪(Luciano Floridi)说，他专门研究人工智能的伦理问题。“温柔、含蓄、安静的推动，会让我们逐渐走向我们原本可能无法做出的选择。”

促进阴谋论

查斯洛特向我提供了一个数据库，里面有在总统大选前的三个月里，更多经Youtube 推荐的视频。它包含了超过8000个视频——所有这些视频都是在他的程序中发现的，在经过了对“特朗普”和“克林顿”的搜索次数相等的情况下。
这不是一套完整的视频，也可能不是一个完美的代表性样本。不过，查斯洛特表示，这是一个此前从未见过的数据集，显示了YouTube向那些对候选者内容感兴趣的人推荐的内容——换句话说，就是该算法的偏好。
Tow Center for Digital Journalism研究主管乔纳森·奥尔布莱特（Jonathan Albright）对查斯洛特使用的代码进行了审核。他表示，这是一款相对简单的软件，方法论有比较可靠。“这项研究抓住了YouTube政治生态系统的明显方向，”他说。“以前从未有人这样做过。”
我和调查记者、数据库分析专家艾琳·麦考密克(Erin McCormick)花了几个星期的时间来对这些珍贵的视频资料进行了观察、整理和分类。从一开始，我们就被系统推荐的许多极端的和阴谋论的内容震惊了，而且几乎所有的视频都是针对克林顿的。
YouTube推荐的一些视频是我们期待看到的：总统辩论、电视新闻剪辑等等。也有两位候选人演讲的视频——尽管我们发现，这个数据库中对特朗普演讲推荐的比克林顿多得多的演讲。
但最引人注目的是，查斯洛特的程序在其他的视频的旁边也发现了大量的反克林顿视频。
有几十个视频片段显示，克林顿患有精神疾病，说她患有梅毒或帕金森氏症，指控她与小野洋子（Yoko Ono）有过秘密性关系。许多人甚至更加黑暗，他们编造了维基解密披露的内容，编造毫无根据的指控，指控克林顿参与谋杀，或者把她与邪教组织和恋童癖联系在一起。
查斯洛特的数据显示，有一段视频被YouTube的算法大力推广了。这是一部奇怪的1小时电影，宣称特朗普的崛起在以赛亚45中就被预言。
数据库中有太多的视频了，所以我们把重点放在了分发次数做多的1000个视频上。我们逐一筛选了这些内容，以确定这些内容是否有利于特朗普或克林顿。超过三分之一的视频要么与选举无关，要么包含了大体中立或不偏不倚的内容。在剩下的643个视频中，有551个支持特朗普，只有92个支持克林顿。
我们看过的视频样本表明，查斯洛特的结论是正确的：YouTube的推荐视频对特朗普更加有利。YouTube可能从来没有想过将它的算法程序设计成让其中的一个总统候选人受益。但至少从这些证据来看，确实发生了这样的事情。

Youtube的回应

“我们非常尊重卫报作为新闻媒体和机构的地位，”在我转发了我们的调查结果后，一位YouTube的发言人给我发了电子邮件。“然而，我们强烈反对使用这种方法论、数据，以及他们的研究得出的结论。”
这位发言人补充道：“我们的搜索和推荐系统反映了人们搜索的内容、可用的视频数量以及人们在YouTube上观看的视频。这并不是对某一特定候选人的偏见，而是反映了观众的兴趣。”
这是一个奇怪的回应。YouTube似乎是在说，它的算法是对使用它的人的欲望的中立反映——如果我们不喜欢它所做的事情，我们也有责任。YouTube怎们能将其解读成“观众的兴趣”——而不是“人们选择观看的视频”是否会受到该公司分发的影响？
如果有选择，我们可能会本能地点击一段在日本森林中死去男子的视频，或者是一段假新闻，声称比尔克林顿强奸了一名13岁的男孩。但那时的冲动真的反映了我们想要得到的内容吗？
几个月前，社会学家图费克奇对YouTube可能对选举产生的影响发出了警告。他告诉我，YouTube的推荐系统很可能已经发现，令人不安和充满仇恨的内容正在吸引人们的关注。“这有点像学校里的自助贩卖餐厅，发现孩子们已经有蛀牙了，而且还喜欢高脂肪和高盐的食物。”她说：“所以餐厅依旧提供这样的食物，当年轻人面前的薯片或糖果被吃掉的时候，就自动装上。”
然而，一旦这种情况恢复正常, 那么在某种程度上更加前卫或怪诞的东西就会变得更加新奇和有趣。图费克奇说，“因此，食物中糖、脂肪和盐的含量越来越高——这是人类天生渴望的东西——而YouTube推荐的视频和自动播放的视频变得越来越怪诞或充满仇恨。”
但是，这些怪诞的视频是怎么让一个候选人受益的呢？这取决于候选人。如果特朗普的精选不是那么怪诞的话，就没有什么意义了。图费克奇指出，有研究表明，“错误信息”在大选前很大程度上是反克林顿的。她说，“虚假新闻提供者”发现，与支持克林顿的视频相比，假的反克林顿材料在支持特朗普上的表现要好得多。
她补充道：“摆在我们面前的问题是，促使人们进入充满了错误和谎言的兔子洞的道德规范，仅仅因为它能增加人们在网站上花费的时间——而且确实有效。”
图费克奇是我与我们共同研究的几位学者之一。研究了选举期间的虚假信息是如何传播的牛津互联网研究所教授菲利普·霍华德（Philip Howard）也是其中一位。他质疑是否有进一步的因素在起作用。“这是一项重要的研究，因为它似乎是第一次系统地研究YouTube是如何被操纵的，”他说，并提出了一种可能性，即该算法和Twitter和Facebook上的算法可能是相似的。
在对众议院情报委员会的证词中，谷歌的法律总顾问肯特·沃克（Kent Walker）淡化了莫斯科的宣传工作渗透到YouTube的程度。他在去年12月向委员会表示，公司的内部调查只发现了18个YouTube频道和1100个疑似与俄罗斯虚假信息活动有关的视频，而且这些视频的浏览量也相对较小。他补充道：“我们认为，他们的活动受到限制，是因为我们在2016年大选前制定了各种保障措施，使得在谷歌的产品中，不会出现那种病毒式传播。”
Twitter、Facebook和谷歌的总顾问准备在众议院情报委员会就俄罗斯利用社交媒体影响选举的听证会作证。
沃克没有提到YouTube采取了什么做法。然而，就在前不久公开的信件中，情报委员会的资深民主党参议员马克·沃纳（Mark Warner）后来写信给该公司，称该算法“特别容易受到外国势力的影响”。这位参议员要求了解该公司的具体做法，以防止YouTube的推荐系统遭到“恶意入侵”。沃克在他的书面回复中没有提供任何细节，但他表示，YouTube拥有“一个复杂的垃圾邮件和安全漏洞检测系统，以识别异常行为和恶性入侵”。
特里斯坦·哈里斯曾是谷歌的内部人士（Tristan Harris），后来成为一名科技告密者。他喜欢将Facebook描述为联邦调查人员无法进入的“2016年大选中活生生的犯罪现场”。Youtube 的情况也是如此。在查斯洛特提供的在大选过程中被推荐的视频数据库中，现在已经从YouTube上消失了有大约一半——其中很多都是由创作者们删除的。查斯洛特一直认为这很可疑。这些视频的标题是基本上都有“必须观看！！希拉里·克林顿试图禁止这段视频”，但在这视频消失之前，已经被人观看了数百万次。“为什么有人要删除一个被观看了数百万次的视频呢？”他问道。
我找到了一份题为“这段视频会让唐纳德·特朗普当选”的视频的拷贝，它引发了病毒式的传播，在从YouTube上消失之前，它已经被观看了超过1000万次。内容是一段温和的蒙太奇式的特朗普的历史片段剪辑, 伴随着柔和的钢琴音乐。但当我慢镜头播放这段视频时，我发现里面有麦莉·赛勒斯（Miley Cyrus）舔镜子的奇怪画面突然闪过。这似乎是一种非专业的、怪异的尝试，试图插入一种潜意识的、性化的图像。但这也突显出，我们对任何可能想要利用YouTube来影响公众舆论的人的监管是多么的少。
我与商业分析公司Graphika的首席执行官约翰·凯利(John Kelly)分享了这8000个Youtube推荐视频的数据库。该公司一直在追踪政治信息造谣活动。他将这些视频与自己在大选期间简历的数据库进行了比对，得出结论称其中很多视频似乎是由Twitter的马甲和由支持特朗普的数字顾问（来自俄罗斯的“主动性提供帮助”）控制的机器人所推动的。
“我没有证据证明谁登录了这些账户，”他说。“但从我们之前看到的这些账户的历史来看，以及它们在Twitter和互联方面的特点，它们是由某个人来控制的——他的工作就是让特朗普当选。”
查斯洛特以及和我交谈过的一些学者认为，社交媒体活动意义重大。YouTube的算法可能已经发展出了它的偏见，但它是否也会被利用进一步推动这些视频的传播呢？“如果一个视频的数据开始飙升，毫无疑问，YouTube的算法将会开始进一步分发它，”奥尔布莱特说。
YouTube并未否认社交媒体宣传可能会影响推荐系统，但它淡化了这种可能性，并强调其推荐系统“不会根据Twitter或Facebook的流量来进行调整”。“卫报似乎试图将研究、数据和他们的结论硬塞进一个关于科技在去年选举中所扮演角色的共同叙述中，”发言人补充说。“然而，我们系统的工作原理却根本不支持这个前提。”
前不久，美国参议院就俄罗斯可能干预 YouTube 的推荐算法与谷歌的通信公开后，YouTube向我发送了一份新的声明。它强调了在2017年做出的改变，以阻止推荐系统推广某些类型的有问题的内容。“我们很欣赏卫报的工作，让人们注意到这个具有挑战性的问题，”声明中补充说。“我们知道，还有更多事情要做，我们期待着在未来几个月发布更多的声明。”

内容创建者

超级产品经理
Next News Network一段视频中的截图，对比尔·克林顿（Bill Clinton）的指控。
由于图片和主持人看上去都很华丽，Next News Network看起来像是Youtube上一个可靠的新闻频道。但这都是表面现象，幕后的操作却让人感到可疑。它从极右派的出版物、假新闻网站和俄罗斯媒体上获取新闻，来做成视频。
该频道由主持人加里·弗兰奇(Gary Franchi)运营，他曾是“声称美国政府正在为其公民设立集中营”阴谋的主要支持者。
尽管弗兰奇坚称他不是一个假新闻创建者，但是Next News Network曾经报道了关于比尔·克林顿强奸一名青少年的捏造指控。（他告诉我，他更喜欢把自己的频道看作是“对保守新闻和观点的评论”。）
在选举前的几个月里，Next News Network变成了一个反克林顿新闻和舆论的工厂，每天制作几十个视频，并吸引到了大量的观众。
查斯洛特的研究表明，弗兰奇的成功很大程度上要归功于YouTube的算法，该算法不断地分发他的视频，使其在“接下来”栏目中播放。YouTube对查斯洛特的研究进行了猛烈的抨击。
我联系了弗兰奇，看看谁是对的。他给我发了一些数据截图，这些数据是给Youtube内容创建者看的，包括他们的观众是如何找到他们的视频片段的数据。比尔·克林顿强奸视频的最大流量来源是YouTube的推荐。该视频在大选前的一个月里被观看了240万次。
弗兰奇给我发送的所有视频数据中，除了一个视频之外，其他都有同样的情况。弗兰奇分享的数据显示，在大选前的一个月里，73%的视频流量都来自于YouTube的推荐。外部流量仅占3%。
弗兰奇是一个靠自己的Youtube频道谋生的职业人士，但我采访过的反克林顿视频的许多其他创建者都是业余的侦探或兼职阴谋论者。通常情况下，他们的视频可能会收到数百次的点击，所以当他们的反克林顿视频开始接收到数百万的浏览量时，他们会感到震惊，就好像他们被一股无形的力量所推动了。在每一种情况下，最大的流量来源——无形的力量——来自Youtube推荐。来自南加州的神秘调查员威廉·拉姆塞（William Ramsey）上传了一个名为“无可辩驳的证据：希拉里克林顿患有癫痫症！”的视频，在YouTube给他发邮件说这违反了规则之后，推荐算法研究在分发这个视频。拉姆塞的数据显示，在大选日前, 美国用户观看视频的次数为240万次。“对于像我这样的无名小卒来说，这已经很多了，”他说。“足以左右选举，对吧？”
来自南卡罗来纳的阴谋论者丹尼尔·亚历山大·坎农(Daniel Alexander Cannon)告诉我：“我发布的所有关于克林顿夫妇的视频, YouTube 都会把它推到屋顶上。”他的最佳视频是一段名为“‘希拉里和比尔·克林顿’你必须看的10张照片”的视频，其实就是他本人根据这些照片对克林顿夫妇健康状况的揣测（似乎篡改过）。坎农表示, YouTube上的浏览次数为370万次, 其中290万次是来自算法推荐。
查斯洛特不仅让人们注意到隐藏在幕后的一系列反克林顿的阴谋视频。他的研究也做了一些更重要的事情：揭示我们的生活是如何被人工智能所调节的。
在不到一代人的时间之前，选民们对政客的看法主要是由成千上万的报纸编辑、记者和电视台高管塑造的。如今，大型技术平台背后隐藏的代码已经成为新的王者。

原文链接：https://www.theguardian.com/technology/2018/feb/02/how-youtubes-algorithm-distorts-truth
译者：chiming，由36氪编译组出品。编辑：郝鹏程