X 社区笔记的诞生

B站影视 2025-01-09 21:58 3

摘要:Keith:当然。我是 Keith Coleman,X 的产品副总裁,之前在 Twitter 工作。我在这家公司工作了大约八年。之前我负责整体的消费者产品开发团队,现在专注于构建社区笔记以及其他相关项目。

在这个访谈中,负责构建 X 的社区笔记(Community Notes)团队的成员们谈到了他们的设计过程以及他们应对平台虚假信息的理念。

Asterisk:你们能简单自我介绍一下吗?

Keith:当然。我是 Keith Coleman,X 的产品副总裁,之前在 Twitter 工作。我在这家公司工作了大约八年。之前我负责整体的消费者产品开发团队,现在专注于构建社区笔记以及其他相关项目。

Jay:我是 Jay Baxter,X 的高级机器学习工程师。我是 Birdwatch 和 Community Notes 项目的机器学习、投票和奖励模型工作的最初负责人。之前,我在 Cortex 应用研究部门从事推荐系统工作,已经在公司工作了十年。

Lucas:我是 Lucas Neumann,一名产品设计师。我在 Twitter 和 X 的 Community Notes 项目上工作了将近四年,现在作为外部顾问与团队合作。

Emily:我是 Emily Thai,曾是芝加哥大学社会变革激进创新中心(University of Chicago Center for Radical Innovation for Social Change)的嵌入式顾问,参与了 Birdwatch 和 Community Notes 项目。RISC 是一个社会影响力孵化器,利用行为科学通过非传统方式解决社会问题。我们与 Community Notes 团队、Keith 进行了接触,为团队提供了一些学术专业知识,并带来了来自技术领域外部的视角。

Asterisk:很高兴你们能来,接下来我想从最初开始聊起。社区笔记(Community Notes)的创意是怎么来的?

Keith:这个想法大约在2019年底诞生。最初的观察是,社交媒体上的人们都想获得准确的信息,但这其实非常困难。显然,有很多误导性的信息在传播。公司当时采取的主要做法是,内部的信任与安全团队来决定什么信息是准确的、什么是被允许的,或者与专业媒体机构合作来做这些决策。这两种方式面临三个大问题。第一个是速度——信息在社交网络和互联网上传播非常迅速。信任与安全或事实核查团队通常需要好几天才能核实一条信息的真伪,而在互联网的时间尺度上,这几天几乎等于永远。

然后是规模问题。对于这些小型团队来说,审查和评估如此庞大的信息量非常困难。最重要的是,即便能够解决速度和规模的问题,仍然存在一个根本的信任问题。很多人不希望由科技公司或媒体公司来决定什么是误导性的,什么不是。所以,即使你给内容加上标签,如果人们认为这些标签有偏见,那么他们也不太可能从中获得有价值的信息。这些问题在当时是显而易见的,我们就在想,究竟有什么方法能够解决这些问题?如何构建一个能够以互联网速度、互联网规模运作的解决方案,且能够获得不同政治立场的各方信任并得到他们的认可呢?

很快,我们意识到,众包可能是一个潜在的解决方向。维基百科显然已经达到了一个巨大的规模。我认为它比任何百科全书都大,更新速度也非常快,新闻变化时通常几分钟内就能更新。它在信任和偏见方面确实存在一些挑战,但我们想,如果能够克服这些问题,也许这种方式能够奏效——这就是这个概念的起源。我们为这种可能的解决方案原型设计了几个不同的想法,其中一个原型展示了人们在 X(当时是 Twitter)上提交笔记,笔记会显示在帖子上。如果这些笔记合理的话,看到帖子的人就可以阅读这些笔记,并得出自己的结论。

Asterisk:一个有趣的发现,来自你们团队和外部研究者的研究,表明人们比起信任真假/虚假信息的标记,更信任这些笔记。我很好奇,这是不是你们从一开始就预料到的,还是说这个用户体验设计决策的灵感来源于哪里?

Keith:最近有一项研究表明,的确,人们更信任那些专门针对某个帖子的笔记,这些笔记包含了关于话题的具体细节,而不是经典的虚假信息标记——这真是太棒了。是的,这确实是我们早期的设计假设之一。我们的一个基本假设是,如果你能为帖子的内容或推文中的陈述添加上下文,人们会比仅仅给出一个泛泛的声明时了解得更多。所有初期的原型都显示了非常具体的笔记,这些笔记专门处理了与该帖子相关的内容。我们将这些原型展示给了来自不同政治光谱的数百人,结果一致表明,他们非常欣赏这些笔记在处理帖子内容时的具体性,并且他们也很欣赏这些笔记引用了来源——这些笔记都有来源。

Asterisk:Birdwatch 试点是在2021年1月启动的,对吧?那应该是一个相当长的原型设计阶段。

Keith:是的。最初我们设计了两种不同的原型,展示了这种想法。我们首先用各种内容和来自不同政治立场的群体进行测试。我们的初步结果让我们感到非常惊讶。在第一次测试中有两种不同的设计,其中一种表现非常好。表现好到让我们怀疑这是否是偶然的——于是我们决定再次测试这款原型,但这次选择了更具争议性的话题。我们测试了关于新冠、南希·佩洛西、特朗普等内容的帖子,这些话题往往会引发很多政治情绪。结果还是很好。来自不同政治立场的人都会说:“嘿,我通常喜欢这个推特用户,但我很欣赏这个笔记,它让我知道这可能不完全准确。”

Asterisk:这个测试是多早开始的?

Keith:当时这些仅仅是用 Figma 制作的概念原型。我们当时的目标是创造出最严苛的条件,测试这种功能是否能在这样的环境下发挥作用。

Asterisk:所以你们发现,人们喜欢的是这些非常具体、针对性的事实核查。

Keith:是的。更重要的是,这些笔记是来自社区的。当时在测试过程中,有人得到了原型的链接,并将其发给了一位 NBC 记者,所以实际上有一篇 NBC 的报道,其中展示了很多原型,你可以看到它们与今天的版本有一些相似和不同之处。这大概是 2020 年初发生的事情。

Asterisk:显然,这正是关于新冠的虚假信息或相互冲突的报道成为一个大话题的时候。那时,是否影响了你们的设计过程?

Keith:这是一个典型的极化话题,我们希望即使是那些通常意见不合的人,也能从中受益。我认为,这又是一个很好的测试案例,产品必须证明自己在这种情况下能发挥作用。

Asterisk:另一个在某些圈子里非常著名的社区笔记元素,是“桥接算法”(Bridging algorithm),即产品用于挑选有帮助且不偏向某一政治立场的笔记的算法。我想 Jay 可能最了解这个,但我也很想知道这个算法在设计过程中是何时首次提出的,以及背后的设计过程。

Jay:从一开始,我们就有这个想法,希望这些笔记能够跨越政治光谱被认为是有帮助的。但这涉及到很多考量。我们需要平衡反操纵性,而当你拥有完全开源的数据集和开源算法时,你不能简单地累加投票数并看谁的票数最多。于是我们考虑了多种具有一定反操纵性的算法类别,比如 PageRank。实际上,我们花了很多时间研究 PageRank 的变种。

我们最终选择了桥接算法,基本上是通过实现多种算法并在许多属性上进行评估后得出的。显然,评估这一点很困难,但桥接算法在这些测试中表现最好,我认为它非常好的一点是,它提供了自然的反操纵性,并且只展示那些在政治光谱上都被认为有帮助的笔记。

Asterisk:你能解释一下它是如何工作的?

Jay:主要的评分动作是我们询问人们是否认为某条笔记有帮助。然后,我们查看人们在以前的笔记中的评分历史。算法的做法是,找到那些在过去评分上有过分歧的人,在某条特定笔记上达成一致,认为这条笔记是有帮助的。这并不是根据任何政治维度来明确界定的——它完全基于人们的投票历史。这个机制产生了非常准确的笔记,因为当你面对那些在政治上有显著分歧的人时,他们通常只有在笔记非常准确时才会一致认为它是有帮助的。

Asterisk:你们在描述这个算法的论文中有一张非常有趣的图。我记得它的纵轴是帮助程度,横轴是极化程度。图形显示出一个钻石形状,表明大多数笔记要么极化程度很高,要么极化程度低,但有很少一部分极化程度非常高的笔记也非常有帮助。这个图形的顶部有一个明显的非极化且有帮助的笔记带。这是否只是人们评分行为自然产生的结果?

Jay:是的,我认为即使考虑到稍微不同类型的桥接机制,你也会发现类似的情况,因为有很多贡献者,质量和勤奋度各异。我听到过一种批评,认为并非所有提出的社区笔记都会被展示。嗯,这可能反而是一件好事吧?并不是每一条提出的笔记都是准确且有帮助的。我确实认为,算法在强加这种特定的钻石结构——如果我们使用稍微不同的算法,可能会看到更多弯曲的钻石形状,或者是星形,或者如果我们以不同的方式正规化模型,可能会有其他形状。但无论如何,绝大多数笔记确实没有达成基于桥接的共识。

Asterisk:这完全符合我的主观看法。当我查看一些被标记为高度极化的笔记时,我发现它们通常不够具体——例如:“2020年选举是公平决定的。”而有帮助的事实核查则更像是:“这个关于新冠的统计数据是不准确的,”或者“这个特定事件并未发生,”或者“这张照片是三年前其他事件的照片。”

Jay:人们非常喜欢社区笔记的一个原因是,质量标准非常高。我认为如果我们总是展示一条笔记,或者没有通过算法筛选就展示内容,它可能就不会成为这么受欢迎的产品。

Asterisk:这背后的问题是,算法是否会在应对本身极端化的问题时感到困难?

Jay:显然,如果以前有分歧的评审员无法找到共同认可的笔记,就不会显示任何笔记。你可以认为在这些情况下应该有笔记,但也许这些并不是能通过笔记改变人们看法的场合。也许能写出更好的笔记,能够改变更多人的观点,但如果现有的笔记没有找到基于桥接的共识,那么它的效用就有限。

说到这一点,我发现即便是最具极化性的话题上,我们仍然能看到相当数量的笔记。通常这些笔记涉及一些非常客观的事实,比如:“这是两年前某场轰炸的视频,而非当前的冲突。”即使是对大多数问题持不同意见的人,也往往能在这类笔记上达成共识。

Keith:人们经常问我们你刚才提出的问题。但如果你看一下这些笔记,绝大多数都是关于极化的政治话题。绝大多数社区笔记实际上处理的都是一些极具争议的话题,而且人们普遍认为这些话题处理得相当公平。它涉及选举,移民和堕胎等问题。我们在产品开发过程中讨论过很多次——这样一个产品可以有许多目标,但笔记的目标实际上是要向人们提供信息。如果有一条笔记虽然是正确的,但并没有真正帮助到人们,那发布它还有意义吗?如果人们觉得它不公平或者有偏见,发布它可能反而有负面影响,甚至会降低人们对整个系统的信任,从而减少整体影响力。因此,我们的焦点是添加那些我们认为能真正提高不同观点之间理解的笔记。

Jay:我还想补充一点,桥接算法在极化的环境下反而更有效。如果大家普遍认同一个话题,笔记的质量标准依然会很高,但即便写得不够好或者来源不够强,大家还是会觉得它有帮助。话题越极化,笔记的质量可能最终会越高。

Asterisk:那么,继续我们的话题——你们在2021年推出了名为“Birdwatch”的试点项目。这个项目的搭建过程是怎样的?你们从中学到了什么?

Keith:我们从极少数的用户开始。在此之前,我们最初通过一些类似Mechanical Turk的贡献者进行测试,目的是快速了解人们可能会在这些笔记中写些什么,但我们并不清楚它在现实世界中会如何运作。最初我们参与的用户非常少——第一天只有500人,接着迅速扩展到1000人,但我们在相当长的一段时间内维持在1000到10000名参与者之间。通过这个过程,我们学到了很多东西。为了让你们了解当时产品的简陋程度,那个时候并没有桥接算法——只有一个超多数规则算法,笔记需要获得84%的“帮助”评级才算有效。同时我们也没有在帖子上展示笔记。

要查看笔记,你需要访问一个单独的Birdwatch网站。所以你必须非常投入才能参与这个试点,因为我们完全不知道这些笔记会是什么样的内容。它会是一堆“垃圾”吗?还是会是“宝藏”?在我们讨论笔记页面的设计时——也就是展示所有笔记的页面——我们甚至讨论过在页面顶部放一个垃圾场的动图,提前给用户做个心理准备。

最终证明,质量远远高于我们预期。虽然并不总是完美的,但绝对比“垃圾场”要好得多。尽管如此,这仍然是一个非常基础的初次发布,产品在那一年多的试点阶段中经历了许多演变。

Lucas:有个数据点能帮助说明当时我们规模有多小——我记得我们大概有500到1000人,而当时Twitter的其他实验通常是从1%的用户开始的。所以我们确实从一个非常非常小的规模开始,学习并看看,“我们面临的风险有多大?需要做哪些调整?”然后我们从那里开始,慢慢地扩展。

Asterisk:1%的Twitter用户会有好几百万人?

Lucas:对。你可以想象,任何平台上推出的新功能,通常都会在那个规模上启动——5%、1%、0.5%。

Asterisk:那为什么决定从这么小的规模开始呢?

Lucas:当时的不确定性实在是太高了。如果你要推出一个新的视频播放器,1%就足够了,几乎没有什么风险。但如果你谈的是互联网用户前所未见的新概念——我们花了很多时间去理解,如何最好地解释这个概念。字面上,我们该在屏幕上写什么文字,才能让人看到后明白我们在做什么?

Asterisk:在那时你们的团队有多大?

Lucas:不到十个人。

Asterisk:我很好奇在生产过程中,你们的反馈循环是如何进行的?你们关注哪些指标?还有什么其他方面是你们在关注的?你们做调整的频率有多高?

Lucas:我们有多个反馈来源。包括使用数据、笔记内容和评分本身。我们还进行了定性研究——观察人们如何使用产品,并让他们告诉我们他们的想法。

Keith:在试点的早期阶段,我们创建了一个用户小组,能定期与他们互动,获取反馈——比如每日观察或评论我们在考虑推出的新功能。

Emily:我认为从这个规模开始有很多好处。我不确定与其他情况相比如何——我从未在Twitter上推出过1%用户规模的产品——但我觉得它让我们形成了非常紧密的反馈循环。我们的团队并不是每一条笔记都读,但我们会阅读每一条关于笔记的推文,还有很多笔记本身。我们对数据库中的内容非常清楚。当我们认为某件事是风险时,我们能举出具体的例子。如果我们担心的风险结果并不严重,我们也会将其优先级降低。

我提到的最后一个反馈来源是我们做的学术研究。你们三个人中,某个可能更能清楚阐述这一点,但我们确实做了很多工作,确保每个决策都经过深思熟虑。我在芝加哥大学的团队和我一起,协助了一个顾问委员会的成立,这些顾问是研究虚假信息、在线社区的学者,他们拥有相关的专业知识。比如,他们可以告诉我们,如果你们想建立像维基百科那样的社区,那么你们应该从小规模开始,并且基于人机交互的研究来制定规范等。因此,我们收到了来自用户、学术界和研究的多重反馈。我认为正是这些反馈使得我们的迭代速度加快了。

Jay:我们的反馈循环迭代速度比公司中那些需要服务所有用户的团队快得多。Keith让我们的团队以“热度项目”模式进行运作。这是一种特别的方式,让我们可以做一些疯狂的事情,构建粗糙的原型并快速发布。我们有很多灵活性,可以发布未经打磨的东西并迅速迭代,因为我们拥有一个小规模的、愿意参与试点的用户群。这让我们的进程大大加速。

Asterisk:试点运行期间,产品和你们的思维方式有哪些重大变化?

Jay:一个关键的变化是算法的开发。刚开始时我们没有任何数据,所以我们并不知道哪些算法可能有效。我们从试点阶段的用户那里收集数据,并用这些数据迭代算法——我们模拟了一些数据,比如对抗性攻击,但大多数时间我们只是利用贡献者的真实数据。当我们最终全面推出时,已经积累了大量数据,找到了一个有效的桥接算法。还有评分表。我知道Emily、Lucas和我都在这个评分表上做了很多迭代。

Lucas:人们在评分时的选择项是我们花了大量时间研究的内容,既为了弄清楚我们需要什么数据来使算法有效,也为了设计出能帮助用户批判性地思考他们评分内容的选项,并引导他们达成最终目标:找到准确且有帮助的笔记。Emily在这方面帮助了很多。

但也有一些剧烈的变化。例如,最初我们将Community Notes设计为非匿名,用户的名字与他们的笔记直接关联。这是最初的设计理念,基于直觉认为要建立信任,必须看到笔记背后的人,或者也许可以通过某人的专业身份来建立信任。然而,在早期的原型阶段,我们从贡献者那里得知,他们不愿意将自己的名字与总统的推文,或者某个大V发布的内容挂钩,他们更倾向于匿名完成工作。这是一个非常强烈的信号。

学术研究也表明,在匿名系统中,用户更愿意自由表达观点,而不受同伴压力的影响。从非匿名到完全匿名的转变是一个庞大的项目,投资也很大,但我们从早期就收到了足够的信号,证明我们必须进行这种转变。

Keith:另一个变动是,逐渐变得显而易见,笔记不应依赖于作者的声誉。笔记应该是自立的。你应能直接阅读笔记,它应当提供必要的信息并引用相关来源,让你从中获取所需内容。这样做要比依赖于某个人的身份来支撑笔记更有力。我们当时对此感到惊讶,事后来看,虽然显而易见,但最初的直觉并非如此。

Asterisk:这也是后续研究的结果之一,这些研究将社区笔记与专家事实核查进行比较——信任度更高。

Lucas:是的。但是有一点需要注意的是,我们必须投入大量工作来克服人们的先入之见。如果回到2021年,当某人看到一个带框的推文时,他们立刻会想到,“哦,这是一个事实核查。”他们会认为是Twitter写的,或者是Twitter的首席执行官决定应该加上这个框。我们今天花了一个小时来告诉你这些内容,但当时我们必须在一瞬间用一句话解释清楚。这一设计以及那些文字是如何达成的——我认为这里没有人做过这么多次的矩形设计迭代。比如,什么样的蓝色能让人看到这个框时更冷静?Keith设计的最初版本是一个橙色框,上面写着“这是误导信息”。从那个设计到现在的样子,经历了一个学习过程。

Keith:那句话——“读者添加了他们认为人们可能想知道的上下文”——我们对这句话进行了很多次迭代,最终找到了一种简洁的方式来描述这里发生的事情,描述它是由人而非公司提供的,且它存在是为了向你提供信息,而不是告诉你该如何思考。

Emily:我想你永远不会听到我们——任何一个参与这个项目的人——说“事实核查”这个词。我们小心翼翼地避免在任何关于这个产品的表述中使用这个措辞,无论是任何语言、产品界面上的内容,还是其他地方,因为我们完全是提供背景信息,让你自己做出信任的判断。这就是为什么信任度更高的原因。但正如Lucas所说,我们正在努力克服人们对推文上框框的先入之见。其他人仍然把它称为“事实核查”。

Asterisk:这可能是谈论更广泛推广的自然过渡——我想这是2022年10月在美国,2022年12月在全球推出。当你的用户基础剧增时,有什么变化?

Keith:在此之前,我们已经对产品进行了大量测试。我们还没有谈到的一个方面是,在试点阶段,我们观察到贡献质量非常参差不齐。我们开发了一个系统,通过这个系统,人们可以获得写作能力,如果他们写的内容对他人没有帮助,也可以失去写作能力。我们开发了桥接算法,这个算法已经在生产环境中上线,约20%的美国人口曾是观众,已经有好几个月时间了。我们进行了大量笔记质量的测试。我们评估了笔记是否在政治光谱的各个方面都能被认为有帮助,通过调查实验和其他测试。我们还评估了笔记的准确性。我们还评估了笔记在共享帖子中的影响。因此,系统已经在相当大的规模上进行了测试,我们对推出后笔记质量的合理性很有信心。而且如果出现任何问题,我们随时可以关闭或缩减功能。

总的来说,当我们推出时,它运作得很好。笔记质量相当高。通过 earned capability 系统、声誉系统和桥接算法,帮助的笔记——真正被认为有帮助的笔记——在整个政治光谱上都得到了认可。我认为你可以从发布后的对话中看到这一点。我记得发布后不久,有一个白宫推文上的笔记,随后他们撤回了那条推文并更新了声明。把这样的权力交给普通人,真是太了不起了——普通人在互联网上能够指出问题,并改变一个重要话题的讨论方式,真是非常了不起。

Asterisk:这也是我想做这个采访的原因——人们似乎始终对社区笔记的质量印象深刻,我想了解是什么因素促成了这一点。但我也想谈谈扩大规模时所面临的一些挑战。这在概念上有些复杂,我想了解你是如何思考这个问题的——现在这个产品有多大,您希望它有多大?有多少推文会被标记?在理想的世界里,您认为应该有多少推文被标记?有什么差距?

Keith:我们有时会这样问:“值得注意的推文的总可达市场有多大?”这真的很难知道,如果我们知道了,确实会非常有帮助。我们想定义的方式是:有多少推文或帖子存在某个笔记,其中反对者也会觉得有帮助?但还有一个问题是可见性——在更具可见性的内容上添加笔记会比在没人看到的内容上添加更有影响力。但很难知道是否存在一个笔记能对反对者产生帮助。我们的假设是,像这样的推文比我们现在有的笔记更多,但我们不知道具体的上限是什么。所以,通常来说,我们只是尽量扩大项目的覆盖范围,但我们始终在衡量是否仍然保持着这些笔记确实是有帮助的高质量标准。

Asterisk:你能谈谈在扩展过程中遇到的一些问题吗?

Jay:显然,不同的人对于希望看到多少笔记有不同的偏好。有些人希望每条推文上都有笔记,即使它们是准确的,因为能看到更多背景信息很酷。而有些人则认为即便是误导性内容上的笔记也不必要,因为大家应该自己知道。

Keith:特别是对于讽刺或笑话——这是一个人们可能有不同看法的领域。它显然是幽默的吗?是否需要加笔记呢?这就是我们喜欢我们所采用方法的原因,因为它将决定权交给了用户。我们会根据人类的偏好来做,而不是由我们来做出这个决定。

Asterisk:我还想谈谈速度的问题。我在阅读卢森堡大学Yuwei Chuai小组的一篇预印本论文时,发现了一些有趣的内容。这篇论文讲的是社区笔记对虚假信息的整体影响——基本上,他们发现,当推文被标注时,确实会减少互动,但这对误导性推文的传播整体影响还是相当小的,因为笔记需要非常非常快速地出现,才能产生影响。让我眼前一亮的统计数据是,推文的半衰期大约是79分钟。它所能获得的印象量的一半,都在最初的79分钟内产生。我知道,你们在加快笔记出现的速度上做了很多工作,从最初试点阶段的五天左右,到现在大约一天之内就能出现笔记。让笔记更快出现的挑战有哪些?

Jay:这个问题问得很好。首先,我想谈谈推文的半衰期。我认为在这篇论文中,他们是查看了所有推文的海量数据,然后从中得出了半衰期。但你知道,普通的推文并不会得到很多互动。如果我们谈论的是那些达到某个门槛以上的病毒性推文,那么它们的半衰期会长得多。

Asterisk:我相信病毒性推文更有可能被加上笔记,对吧?

Jay:绝对是的。因为为了让足够多的人看到一条推文,从而写出笔记,并且让笔记获得足够的评分以便显示出来——

Keith:通常情况下,这些推文会被很多人看到,时间跨度可能长达24小时,而不是79分钟。它们的时间窗口要长得多。

Jay即使你在推文被标注之前就已经看到了,如果你与该推文进行了互动,我们也会在笔记被评分为有帮助后给你发送通知。至于速度方面,我们做了很多工作。我认为速度已经有了相当快速的提升。我们优化了后台的数据处理流程,此外,随着贡献者人数的增加,事情变得更快了。

Keith:当我们刚开始时,回到试点阶段,重点完全是质量。我们的想法是,随着我们不断发展,我们会解决速度和规模的问题。正如你提到的,在试点阶段,一条推文需要几天时间才能获得笔记。但那时几乎没有人看到这些推文。有几个环节会增加处理时间。其中之一是用户决定某条推文或帖子可能需要一个笔记的自然时间,然后让大家对其进行评分。接着是实际对笔记进行评分的时间。我们正在努力加快这两个环节。评分的速度——也就是说我们可以多频繁地进行评分——曾经是三到五小时,现在很快就能在几分钟内完成。

这意味着,笔记可以在写好并被评分为有帮助后的几分钟内发布上线。然后,你需要将这与其他替代方案进行对比。专业的事实检查通常需要几天时间。我们经常看到这种情况。在以色列-哈马斯冲突中,冲突的前几天,虚假信息泛滥。有人发布了视频游戏的画面,声称发生在以色列;也有人发布了其他国家的图片,说这是加沙发生的情况,而笔记在几个小时内就出现了。我记得那时笔记的中位时间大约是五个小时。这是我们进行所有速度提升之前的情况。然后,部分相同的更正,直到几天后才作为事实检查发布出来。因此,笔记已经大大超越了现状。

Jay: 除此之外,我们还进行媒体匹配。也就是说,我们赋予我们的顶级写手一个功能,可以写一篇关于媒体本身的说明,而不是仅仅写帖子内容。当这样的说明被评为有帮助时,它会显示在平台上所有匹配该媒体的帖子上,这通常会在帖子发布后的几分钟内发生。基于公开数据集的每条说明的统计数字通常不会计算媒体匹配,而这实际上大大加快了说明的中位时间。

Keith: 很难知道,因为在现实世界中很难进行测试,但我怀疑有大量误导性的表情包或观点原本会变得病毒式传播,但由于说明和媒体匹配的存在,它们并没有传播开来。我们经常看到这种情况:一个帖子上线时用的是过时或假的视频,几小时之内就加上了一个说明。这是一个媒体说明,马上就会匹配到所有使用该媒体的其他帖子上。我猜在Community Notes存在之前,这些图像可能已经被大量分享了。

Asterisk: 显然,社交媒体平台上的大规模内容审查仍然是一个巨大的问题。你们在开发新的内容审查方法过程中学到了哪些重要经验?你最希望对其他公司的团队或广泛从事这个问题的人员说些什么?

Keith: 内容审查领域的一个最大挑战是如何提供让人们觉得公平的结果。我认为Community Notes做得不错的一点是,它通常会提供人们觉得公平且有帮助的说明。我认为人们也觉得这个过程相对公平,因为每个人都有发言权。它是基于公开的数据和公开的代码,人们可以审计和批评它。其他领域的审查也面临着同样的公平性挑战。我希望看到一些新的方法,能够以公开、公平的方式做出决策,且人们可以信任。我猜这类方法会非常成功,并且最终会在一些具有争议的决策上取得人们的支持——即使他们可能不同意这些决策。

Jay: 我认为我们在过程中做了很多小的设计决策,这些决策对许多类型的审查系统非常有帮助,比如匿名性、实际使用群众力量、从用户而不仅仅是管理员那里获取审查反馈,以及让算法寻找共识点——然后是像增加摩擦这样的设计选择。很多时候,人们如果只是愤怒地点击一个按钮,可能不太会认真对待。但如果人们需要付出更多的努力去写点什么,他们可能会更加小心。也许Lucas和Emily可以更多地谈谈这个问题。

Lucas: 我认为我们必须克服很多设计挑战,因为我们坚持了一些最初设定的原则。比如数据是开源的,代码是开源的,而且我们在X平台上没有任何按钮来提升或降低某条说明的优先级。我们从未改变过某个具体说明的状态。我们要么完全关闭系统,要么系统正常运行。这三个不可妥协的原则给我们带来了很多工作。匿名性、声誉、以及屏幕上的所有小细节——这些都使得最终人们看到一条说明时,会觉得,“我可以信任这个。”但是要实现这一切,花费了我们多年的努力。

Emily: 作为一个不从事社交媒体内容审查的人,我认为通过查看Community Notes的设计选择、原则和价值观,以及在进行真理探索项目时必须做出的决策,你能学到很多东西——无论那个项目是什么,对吧?我在一家慈善评估机构工作,你可能会觉得这与社交媒体毫无关系。但它确实影响了我对真理探索的思考方式。

Asterisk: 你们有没有遇到过对不能改变特定说明状态这一点的反对意见?

Keith: 我们一直得到支持,认为说明是否显示应该由人们决定,而不是公司。这个过程是可以审计和验证的——你可以下载代码和数据,复现你在X平台上看到的结果。我们的原则是,我们正在构建一个系统,通过透明、公开的流程,生成有帮助且有信息量的说明。如果存在问题,那就不是说明的问题,而是系统的问题。所以我们宁愿关闭整个系统——并加以改进——也不愿关闭某条说明。

公司唯一会对特定说明采取行动的情况,是如果该说明违反了平台规则。但由于桥接算法和人们必须通过赚取能力才能撰写说明的过程,这种情况一开始就得到了抑制。也许会让人感到惊讶的是,一家公司会愿意没有一个覆盖按钮,可能没有这个按钮会让人感到不舒服,但我认为这符合人们希望世界运作的高尚理念。它就是公平、清洁和有原则的。

Asterisk: 你还提到过其中一个原则是开源代码和数据。那给你们带来了什么影响?

Jay: 这是我们给自己设定的一个巨大——但非常有价值的——限制。当人们想到识别那些能对通常持不同意见的人产生帮助的内容时,他们通常会考虑使用推文、点赞或互动等方式。但因为我们希望算法完全基于公开数据运行,所以我们排除了使用这些数据的可能。我们希望算法完全基于Community Notes本身的贡献数据,而这些数据是公开的。这导致了一个相当新颖且强大的基于桥接的矩阵分解算法,它天生就能抵抗操控——即使是开源的。与其关注推文、互动或类似的东西,算法关注的是人们在Community Notes评分中有多少次意见一致。

这种方法的一个关键优势是,当人们做出评分时,他们与评分结果有直接的关联,因为这些评分实际上会提升说明。因此,从根本上讲,人们会有动机以符合自己实际观点的方式进行评分。此外,开源数据也被证明是有帮助的。例如,除了增加透明度和信任外,它还使得对Community Notes的独立外部研究成为可能,比如最近的两项研究显示,说明减少了50-61%的帖子转发量,并使帖子删除率提高了大约80%。而《美国医学会杂志》上的一项研究发现,他们审查的说明非常准确。它甚至让我们接受了来自公众的代码更改。评分说明的代码实际上包括了来自公司外部的人在GitHub上提交的代码。最终,我们希望算法本身也由大众编写,就像说明本身一样。

来源:范德彪3

相关推荐