加拿大仅41人?AI 翻译疯了,“一月” 译 “八月”,农民看了吃大亏

B站影视 内地电影 2025-10-11 17:55 1

摘要:26岁的Kenneth Wehr做了一个决定,那就是,删掉格陵兰语维基百科几乎全部内容。

26岁的Kenneth Wehr做了一个决定,那就是,删掉格陵兰语维基百科几乎全部内容。

这位德国年轻人不是疯了,他只是想让这门语言在网络世界保住最后一线生机。

四年前接手时他发现,页面上那些看起来像模像样的文章,

实际上都是语法错误百出、毫无逻辑的机器翻译垃圾。

有篇文章居然说加拿大只有41个居民。

当AI翻译开始大规模入侵维基百科,受伤最重的恰恰是那些最脆弱的小语种。

格陵兰语维基百科大概在2003年上线,到Wehr接手时已经积累了约1500篇文章,

问题在于,这些文章几乎没一篇是真正懂格陵兰语的人写的。

现在在丹麦教格陵兰语的Wehr估计,可能只有一两个格陵兰本地人曾经贡献过内容。

真正让Wehr决心动手的原因,是他发现越来越多机器翻译的文章被直接复制粘贴上去。

这些文章充满了各种低级错误——语法不通、词不达意,有时甚至只是一串乱码字母。

"对那些发布者来说,这些内容看起来像格陵兰语,反正他们自己也看不懂",Wehr这么说。

维基百科目前有超过340种语言版本,另外还有400种正在测试开发中。

《麻省理工科技评论》估计,在四个非洲语言的维基百科版本中,有40%到60%的文章是未经校对的机器翻译内容。

因纽特语维基百科的情况更糟,超过三分之二包含多个句子的页面都部分用这种方式创建。

这件事的严重性在于,AI系统学习语言的方式就是抓取互联网上的海量文本。

对那些使用人数少的语言来说,维基百科有时候是它们最大的在线语言数据库。

页面上的错误会直接污染AI学习的"水源",导致模型在翻译这些语言时更容易出错。

然后人们继续用这些出错的工具添加更多劣质翻译到维基百科,

AI继续从这些劣质内容中学习——这就形成了一个恶性循环。

26岁的加拿大教师Yuet Man Lee曾经用谷歌翻译和ChatGPT的混合工具,

把他为英语维基百科写的几篇文章翻译成因纽特语。

他觉得能为一个小社群做贡献是件好事。"我当时没想过会有人注意到这篇文章",

他解释说,"如果你在那些小众的维基百科上发布内容——大多数时候根本没人会看。"

Lee把这种心态称为"大维基百科式傲慢"——当熟悉更活跃维基百科的用户去小版本做贡献时,

他们会想当然地认为别人会来修正错误。

可因纽特语维基百科是一片"贫瘠的荒原"。自从他创建那篇文章以来,没有任何人动过它。

26岁的农业规划师Abdulkadir Abdulkadir在尼日利亚北部,每天花三个小时用富尔富尔德语处理维基百科条目。

他一直建议把维基百科作为偏远村庄农民为数不多的在线资源之一,为他们提供关于哪些种子或作物最适合他们田地的信息。

"如果你给他们一篇机器翻译的文章",Abdulkadir说,"那很可能会轻易伤害他们,因为信息很可能没被正确翻译。

"谷歌翻译显示富尔富尔德语中"一月"的意思是"六月",ChatGPT则说是"八月"或"九月"。

这些程序还暗示,"收获"的意思是"发烧"或"安康"。

Abdulkadir最近被迫修正了一篇关于豇豆的文章,因为那篇文章几乎无法阅读。

他估计仍有大约60%的文章是未经校对的机器翻译。

在尼日利亚另一端,Lucy Iwuala为伊博语维基百科做贡献。"伤害已经造成了",她说,同时打开最近创建的两篇文章。

两篇都是通过"内容翻译"工具自动翻译的,里面错误百出。

三年前出于对伊博语正被英语取代的担忧,Iwuala开始定期为维基百科做贡献。

"这是我的文化,这是我的身份",她说,"这才是核心:确保你不会被抹去。"

夏威夷大学的夏威夷语助理教授Noah Haʻalilio Solomon报告说,夏威夷语维基百科上某些页面约有35%的词语无法理解。

几十年前曾一度濒临灭绝的夏威夷语,在原住民活动家和学者的努力下正在经历复兴。

在维基百科这样广泛使用的平台上看到如此拙劣的夏威夷语,令他感到不安。

"这很痛苦,因为它让我们想起文化和语言曾无数次被盗用",他说。

也有成功案例。伊纳里萨米语,一种仅在芬兰北部偏远社群使用的语言,是人们如何善用维基百科的典范。

四十年前这门语言正走向灭绝,当时只有四个孩子会说。

如今已有数百名使用者,维基百科上有6400篇文章,每一篇都由流利的使用者进行过审校。

"我们不关心数量,我们关心质量",伊纳里萨米语言协会成员Fabrizio Brecciaroli说。

格陵兰语就没这么幸运了。

自从删除大部分内容后,Wehr花了好几年试图招募使用者来帮助复兴它。

他登上了格陵兰媒体,也在社交媒体上发出呼吁。可他没得到太多回应。去年年底他开始申请,要求维基百科语言委员会关闭格陵兰语版本。

本月早些时候Wehr的提议被接受了:格陵兰语维基百科将被关闭。

可能已经太迟了——格陵兰语的错误似乎已经固化在机器翻译器中。

如果你让谷歌翻译或ChatGPT用标准格陵兰语数到10,两个程序都做不到。

技术进步本该让小语种获得更多生存空间,现在看来反倒成了加速它们消失的推手。

好消息是,伊纳里萨米语的例子证明,只要有足够的重视和正确的方法,小语种完全可以在数字时代找到自己的位置。

关键在于,我们需要更多真正用心去保护这些语言的人。

来源:靳律法谈

相关推荐