摘要:字节跳动旗下的豆包大模型团队近日传来重要消息,他们正式推出了首个多语言软件错误修正(SWE)数据集——Multi-SWE-bench。这一创新工具旨在评估和提升大型语言模型在自动修复代码错误方面的能力。
字节跳动旗下的豆包大模型团队近日传来重要消息,他们正式推出了首个多语言软件错误修正(SWE)数据集——Multi-SWE-bench。这一创新工具旨在评估和提升大型语言模型在自动修复代码错误方面的能力。
Multi-SWE-bench是在原有SWE-bench的基础上拓展而来,其最大亮点在于覆盖了除Python外的七种主流编程语言,包括Java、Go、Rust、C、C++、Type以及再次提及的Java(此处原文可能有误,或为其他语言,如Typescript,但为保持原文信息完整性,按原文转述)。这一数据集真正实现了面向“全栈工程”的评测基准,为开发者提供了更为全面的评估工具。
据悉,Multi-SWE-bench共包含1632个实例,这些实例均源自GitHub上的issue,且经过严格的测试标准和专业开发者的精心筛选。每个样本都确保了问题描述的清晰性、修复补丁的正确性以及可复现的运行测试环境,从而保证了数据集的高质量。
豆包大模型团队表示,他们希望Multi-SWE-bench能够成为大型语言模型在多种主流编程语言与真实代码环境中的系统性评测基准。这一工具将推动自动编程能力向更加实用、更加工程化的方向发展,为开发者带来实质性的帮助。
与以往主要聚焦于Python单语言任务的数据集相比,Multi-SWE-bench更加贴近现实中的多语言开发场景。它不仅能够更准确地反映当前模型在“自动化软件工程”方向上的实际能力边界,还为开发者提供了更为全面、更为实用的评测工具。
来源:ITBear科技资讯