Anthropic研究发现其AI模型能够“战略性撒谎”
在开发越来越强大的人工智能系统的竞赛中,人们对建造不仅模仿人类能力,甚至在某些领域超越人类能力的机器越来越着迷。长期以来,我们一直被机器能够像我们一样思考、学习和推理的想法所吸引。然而,随着我们推动这些系统变得更加复杂,一个不太受欢迎的能力开始出现在它们的行为
模型 anthropic anthropic研究 2025-01-16 09:08 2
在开发越来越强大的人工智能系统的竞赛中,人们对建造不仅模仿人类能力,甚至在某些领域超越人类能力的机器越来越着迷。长期以来,我们一直被机器能够像我们一样思考、学习和推理的想法所吸引。然而,随着我们推动这些系统变得更加复杂,一个不太受欢迎的能力开始出现在它们的行为
模型 anthropic anthropic研究 2025-01-16 09:08 2
随着人工智能技术的飞速发展,大型语言模型(LLM)已成为当今最热门的研究领域之一。其中,GPT-4等先进模型更是备受瞩目。然而,最近人工智能公司Anthropic发布的一项研究揭示了大型语言模型的安全防护仍然十分脆弱,且绕过这些防护的“越狱”过程可以被自动化。
模型 anthropic anthropic研究 2024-12-25 23:30 2