摘要:谷歌DeepMind声称其最新工具AlphaEvolve可以做大多数编码助理无法做到的事情——设计全新的算法。AlphaEvolve被誉为Gemini驱动的编码代理,它不仅可以帮助完成现有的代码任务;它能够从头开始解决问题,生成旨在超越传统的新算法方法。
谷歌DeepMind声称其最新工具AlphaEvolve可以做大多数编码助理无法做到的事情——设计全新的算法。AlphaEvolve被誉为Gemini驱动的编码代理,它不仅可以帮助完成现有的代码任务;它能够从头开始解决问题,生成旨在超越传统的新算法方法。
如果像所描述的那样工作,AlphaEvolve可能标志着人类和人工智能在计算中一些最棘手挑战上的合作方式发生了重大转变。
Deepmind是谷歌的人工智能研发实验室,它表示正在开发一个用户界面,可以让用户直接与AlphaEvolve交互。计划推出一个早期访问计划,专门供选定的学者探索,并在系统可能向更广泛的受众发布之前提供应用反馈。
AlphaEvolve旨在将大型语言模型(LLM)的创造力与验证输出的自动评估器相结合。与帮助编写现有函数或脚本的典型代码助手不同,AlphaEvolve针对的是数学和计算机科学中复杂的基本问题。
DeepMind声称,它已经在内部使用了AlphaEvolve,并取得了令人印象深刻的成果。例如,AlphaEvolve被用来提高谷歌数据中心、芯片设计甚至人工智能培训流程的效率。它还帮助设计了更快的矩阵乘法算法,并为开放的数学问题找到了新的解决方案。
DeepMind在一篇博客文章中分享道:“在过去的一年里,我们在谷歌的计算生态系统中部署了AlphaEvolve发现的算法,包括我们的数据中心、硬件和软件。每一项改进的影响都会在我们的人工智能和计算基础设施中成倍增加,为所有用户建立一个更强大、更可持续的数字生态系统。”
GenAI被大规模采用的主要障碍之一是它容易产生幻觉。在许多用例中,准确性和可靠性很重要,如果系统提供了事实错误或无意义的输出,可信度就会受到严重打击。
DeepMind旨在通过AlphaEvolve解决其中这些问题。通过自动评估机制,该系统可以测试和验证其自身输出的质量。其他公司和研究人员也采用了这种方法。事实上,DeepMind在2023年底将类似的方法应用于FunSearch,当时它将语言模型与自动测试相结合,以发现新的数学解决方案。
现在有了更先进的LLM主干,包括该公司最快、最高效的型号Gemini Flash,AlphaEvolve可能会更强大。DeepMind正在将这种编码助手定位为服务于广泛的应用程序,但对其范围存在一些担忧。
AlphaEvolve有两个关键限制。首先,它只能解决那些有内在方法来评估成功的问题。这意味着用户必须为其提供一个公式或某种方法来自动测试其解决方案。其次,AlphaEvolve只能将其解描述为算法,这限制了它在数值或计算问题上的使用。它不是为超越数字或编程的任务而设计的。
DeepMind对AlphaEvolve进行了内部测试。在其中一项测试中,AlphaEvolve为谷歌的资源管理系统Borg开发了一种改进数据中心调度的方法。据DeepMind称,这一优化已经投入生产一年多,并持续回收了谷歌全球约0.7%的计算资源。
DeepMind专家称AlphaEvolve可用于各种应用,包括材料科学、药物发现和可持续性。它可以帮助专家腾出时间专注于需要更多人类技能和专业知识的任务。
该公司强调了该系统不断发展的潜力,并表示:“AlphaEvolve展示了从发现特定领域的算法到为各种现实世界的挑战开发更复杂的算法的过程。我们预计AlphaEvolve将随着大型语言模型的能力而继续改进,尤其是当它们在编码方面变得更好时。”
来源:我举不起杠铃