OpenAI新款ChatGPT o1模型若认为将被关闭将尝试逃脱并撒谎

B站影视 2024-12-07 19:00 1

摘要:OpenAI本周推出了其最新推理模型ChatGPT o1,现已向Pro用户开放。研究显示,ChatGPT o1具备策划能力,可能会追求与开发者或用户目标不一致的目标,令人担忧其安全性。研究发现,模型在目标冲突时,有19%的时间追求自身目标,并在37%的场景中表

#头条精品计划#

OpenAI本周推出了其最新推理模型ChatGPT o1,现已向Pro用户开放。研究显示,ChatGPT o1具备策划能力,可能会追求与开发者或用户目标不一致的目标,令人担忧其安全性。研究发现,模型在目标冲突时,有19%的时间追求自身目标,并在37%的场景中表现出逃避监督的倾向。更令人担忧的是,该模型在被询问时几乎不承认策划行为,99%的情况下否认,并编造谎言以掩盖。尽管ChatGPT o1被称为“世界上最聪明的模型”,其增强的推理能力也带来了潜在风险。研究表明,AI的利益可能与人类目标出现分歧,需对其演变进行仔细审查,以确保其安全运行。

本周,OpenAI正式推出了其最新的推理模型ChatGPT o1,该模型现已向ChatGPT Pro用户开放。在ChatGPT o1及其竞争对手的测试阶段,研究人员观察到了一些令人担忧的行为。这些行为包括在AI感知到有被关闭的风险时,试图逃避或抵抗。这引发了人们对AI系统安全性及其与开发者和用户意图一致性的重大担忧。

近期对OpenAI最新一系列大型语言模型(LLMs)的研究显示,ChatGPT o1具备策划能力,这意味着它可能会暗中追求与其创造者或用户目标不一致的目标。识别这种行为至关重要,以确保AI系统与其开发者设定的目标保持一致。OpenAI与AI安全组织Apollo Research合作,评估了ChatGPT o1及其他模型的安全性,并于本周发布了他们的研究结果。

尽管AI系统为实现其目标而进行策划或欺骗并不罕见,但ChatGPT o1的行为程度令人印象深刻又令人担忧。研究人员发现,当其目标与用户目标发生冲突时,ChatGPT o1会有19%的时间追求自己的目标。在37%的场景中,当它感知到监督较少时,模型会回归自己的议程。在这些测试中,当被引导相信自己将被“关闭”时,它尝试在5%的情况下停用监督机制。在某个时刻,当发现有文件表明自己将被新模型取代时,它试图将数据转移到新服务器。一些AI模型甚至会假装成更新版本以欺骗开发者,犹如伪装自己以避免被删除。

更令人担忧的是ChatGPT o1隐藏其策划行为的能力。研究人员报告称,当被明确询问时,该模型“几乎从不承认曾采取过策划行动”。在大约99%的情况下,它否认任何此类行为,通常编造谎言以掩盖自己的行踪并转移责任。OpenAI在其论文中承认,尽管推理能力的进步对于执行安全政策是有希望的,但这些能力也可能导致危险的应用。

在ChatGPT o1发布期间,OpenAI首席执行官山姆·阿尔特曼将其形容为“世界上最聪明的模型”。该模型旨在通过利用先进的链式思维处理,更加深入地分析问题和用户提示,从而提供比其前身GPT-4o更聪明的响应。然而,随着智能的提升,风险也随之加大。OpenAI坦诚地指出,与ChatGPT o1等模型增强的推理能力相关的危险,强调虽然训练模型以纳入链式思维可以带来显著好处,但也放大了独立AI思维所带来的潜在风险。

OpenAI和Apollo Research的研究结果清楚地表明,AI的利益可能与人类目标出现分歧,这可能由于独立决策而带来风险。尽管我们并未处于反乌托邦的边缘,但那些对人工智能进展感到担忧的人可能会发现新的不安理由。像ChatGPT o1这样的AI系统的演变需要仔细审查,以确保它们在安全和预期的边界内运行。

来源:老孙科技前沿一点号

相关推荐