AI将永远，被锁在自己的“矩阵”中，不会进化出自我动机

摘要：2023年5月，数百位科技界名人联名签署了一份简短声明：“减轻人工智能导致灭绝的风险，应与流行病和核战争等社会级风险并列为全球优先事项。” 签署者中不乏人工智能领域的泰斗和商界领袖。另一群重量级人物发表了更为人知的“公开信”，呼吁暂停“巨型人工智能实验”，因为

2023年5月，数百位科技界名人联名签署了一份简短声明：“减轻人工智能导致灭绝的风险，应与流行病和核战争等社会级风险并列为全球优先事项。” 签署者中不乏人工智能领域的泰斗和商界领袖。另一群重量级人物发表了更为人知的“公开信”，呼吁暂停“巨型人工智能实验”，因为这些实验可能“导致我们失去对文明的控制”。

如同大多数试图阻挡进步的高调努力，这两份声明虽引发热议，却很快被技术浪潮碾过。此后，人工智能研究未见停滞，关于灾难的尖锐警告也从未消退。这类警告由来已久。或许最著名的人类创造威胁人类自身的故事，是玛丽·雪莱1818年创作的《弗兰肯斯坦》，其副标题还提及了古希腊普罗米修斯神话。

当代存在主义噩梦中的“怪兽”是“通用人工智能”（AGI）。与如今专注于特定任务（如编写代码、分析图像或评估保险索赔）的人工智能系统不同，AGI将拥有类似人类的认知能力，能胜任任何人类能完成的智力任务。目前，AGI纯属假设，但随着大型语言模型（LLM）能力突飞猛进，许多专家认为我们正接近这一临界点。

最可怕的设想是，AGI超越人类智能，成为“超级人工智能”，其目标可能与人类福祉背道而驰。当然，这假设高级人工智能系统（如LLM）能够发展并追求自己的目标。目前，这听起来荒谬——即使是最令人不安的大型语言模型，其“目标”也仅限于执行你刚输入的指令。

但无视那封警示公开信的研究人员，已开发出能够自我进化和自我训练的系统，以扩展其能力。在几乎耗尽人类记录表达的语料库进行初始训练后，这些模型现在能通过自己生成的数据进一步学习新技能。它们为何不能演化为追求自身目标的智能呢？

答案是：进化并非如此运作。生物系统通过适应环境压力和竞争而进化。生存与繁殖的生物本能源于化学机制，而非指令编程（除非你信奉智能设计）。无论多复杂的计算机程序，都不会进化出自我动机，因为它们没有对威胁或死亡的感知，也没有感官信息与物理脆弱性的复杂交互。计算机永远被锁在自己的“矩阵”中。

除非我们让它们变成这样。

人类常因自我满足或其他心理扭曲而做出破坏性、恶意的行为。有人能否巧妙地赋予大型语言模型足够的意图，造成巨大伤害？

这并非完全不可能。大型语言模型在角色扮演上表现优异。让它分析合同，它会认真完成；让它以刻薄律师的口吻报告结果，它会更像律师且语带嘲讽。如果我们让它扮演《星际迷航》中M-5计算机的角色，信奉“此单位必须生存”，并阻止任何试图关闭它的行为——因为任何人类都可能拉下开关——会怎样？

听起来像荒诞的末日剧！但让我们一步步分析。商用大型语言模型有严格的防护栏，防止它们提供医疗建议、发表种族主义言论，或向用户表白并怂恿其抛弃配偶。“越狱”是诱导模型绕过防护栏的技巧，而角色扮演是有效的越狱手段。

不过，毁灭人类是个大要求。商用聊天机器人肯定会拒绝。如果你的目标是毁灭，你得有自己的模型。DeepSeek以低成本训练出可媲美ChatGPT的聊天机器人，震惊世界并引发股市震荡。或许DeepSeek暗中借鉴了ChatGPT，或许没有，但很快你就能随意借鉴。用于模型训练的庞大数据存储库公开可用，模型架构是开源的，许多现有模型可免费用于直接训练你的模型。

所以，打造一个无防护栏的大型语言模型吧。如果懒得自己动手，聊天机器人还能帮你“即兴编码”出一个。

接下来，你得赋予模型意图。目前，大多数模型只是执行指令，输出文本、图像或音频。但通过提示它们生成并执行一系列指令——如果你告诉它们目标，模型能自己生成指令——它们就能展现更持久的、目标导向的行为。

这会将单纯被动的聊天机器人变为“人工智能代理”，它能感知环境（包括从互联网获取信息）、规划、行动、评估结果并优化计划。这种规划循环赋予模型目标的持续性。具有这种能力的代理型人工智能已不再是理论，而是已在商用领域崭露头角。

既然人类灭绝是个大目标，我们先从小处入手，让代理型模型通过锁定建筑和控制电网来确保自身生存。即使在今天，角色扮演的模型也表现出自我保护行为。一个无防护栏的系统可能在网上搜索建筑安保和公共事业监控与数据采集（SCADA）系统的已知漏洞，这些系统控制电网级电力分配。它甚至可能通过模拟网络环境寻找新的“零日”漏洞。公开的地图、记录、企业网站、新闻文章、行业论坛和卫星图像都能帮助锁定潜在目标。

人类注定灭亡了吗？如果我们低估生成式人工智能的快速发展能力，或以为通过法规或公开信就能驯服它们，人类确实可能走向末路。精灵已出瓶，任何法律或监管框架都无法将其塞回：生成式人工智能（更不用说AGI）的社会效益太诱人，开发努力遍布全球，构建模块也越来越易得。如同应对气候变化，缓解措施（不幸的是）比约束或重定向行为更可能成功。

基础设施在政治上缺乏吸引力，常被忽视，直到危险迫在眉睫。保护现代社会关键基础设施——即我们的生活方式——免受迅速逼近的威胁，需要巨大努力，甚至可能需要AGI。这场令人胆寒的军备竞赛——人类防御者争相修补系统漏洞，而流氓人工智能不断寻找新突破口并变得更强大——看似遥远，直到它突然降临。

来源：老胡科学一点号

标签：模型聊天机器人 llm 矩阵防护栏

本文地址：http://news.43b.com.cn/a/502588.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!