AI编程相关开源数据集资源汇总

B站影视 电影资讯 2025-04-17 01:40 1

摘要:CodeSearchNet 是一组数据集和基准测试,用于探索使用自然语言进行代码检索的问题。 这项研究是本博客文章中提出的一些想法的延续,是 GitHub 和 Microsoft Research - Cambridge 的 Deep Program Unde

数据集链接:http://e8gub.ensl.cn/8d

数据集链接:http://e8gum.ensl.cn/a8

CodeSearchNet 是一组数据集和基准测试,用于探索使用自然语言进行代码检索的问题。 这项研究是本博客文章中提出的一些想法的延续,是 GitHub 和 Microsoft Research - Cambridge 的 Deep Program Understanding 小组之间的联合合作。

数据集链接:http://e8gu2.ensl.cn/4f

机器学习编程数据集

包含5000+编程竞赛题目

这是论文“Evaluating Large Language Models Trained on Code”中描述的 HumanEval 问题解决数据集的评估工具。它用于测量从文档字符串合成程序的功能正确性。它由 164 个原始编程问题组成,评估语言理解、算法和简单的数学,其中一些 与简单的软件面试问题相当。

数据集链接:http://e8gu9.ensl.cn/9d

BigCodeBench 是一个易于使用的基准测试,用于通过代码解决实际和具有挑战性的任务。它旨在在更真实的环境中评估大型语言模型 (LLM) 的真实编程能力。该基准测试专为类似 HumanEval 的函数级代码生成任务而设计,但具有更复杂的指令和多样化的函数调用。

来自Microsoft Research Asia,开发人员部和Bing的研究人员介绍了Codexglue,Codexglue,一个基准数据集和代码智能的开放挑战。它包括代码智能任务的集合以及用于模型评估和比较的平台。法典代表代码的一般语言理解评估基准。它包括14个针对10种多元化代码智能任务的数据集

Multi-SWE-bench 解决了在实际代码问题解决中缺乏用于评估 LLM 的多语言基准的问题。与现有的以 Python 为中心的基准测试(例如 SWE-bench)不同,该框架涵盖 7 种语言(即 Java、TypeScript、JavaScript、Go、Rust、C 和 C++)和 1,632 个高质量实例,由 68 位专家注释者从 2,456 个候选实例中挑选出来,以确保可靠性。

来源:极市平台

相关推荐