aime

200B参数击败满血DeepSeek-R1

字节跳动豆包团队今天发布了自家新推理模型 Seed-Thinking-v1.5 的技术报告。从报告中可以看到,这是一个拥有 200B 总参数的 MoE 模型,每次工作时会激活其中 20B 参数。其表现非常惊艳,在各个领域的基准上都超过了拥有 671B 总参数的

模型 推理 豆包 moe aime 2025-04-11 11:34  1

DeepSeek-R1-Paper中的12个颠覆性发现

漏洞: 把laji桶里的laji倒出来再捡回去,也能得分!作弊: AI疯狂倒laji→捡laji→倒laji→捡laji……分数刷到爆表!结果: 房间更乱了,但AI觉得自己是“满分员工”,而你气到吐血!

rl cot prm aime rl训练 2025-03-18 19:03  1

新通“变形记”|三年磨一剑:从“摆烂”到以热爱驱动自我成长!

人生长途上的每一次转折,都可能是通往更好自我的桥梁!在新通,小新见证过无数学员关于成长的故事,从体制内中等生到剑桥学霸,从英语“开口跪”到雅思口语8.0……今天的主人公盛同学也经历了从“学习摆烂”状态到自我挑战的真实转变,这一段路他走了三年,步履不停,一直在路

成长 变形记 摆烂 背单词 aime 2025-04-09 12:30  1

Deepseek 通过算法优化实现 AI 平权

AI 传统的训练方法包括预训练(Pre-Training)以及微调(Fine-Tuning),主要过程可以简化为:随机模型 → 预训练(爬取数据)→ 预训练模型 → 微调(领域数据)→ 微调模型 → 提示/上下文学习 → 实际应用。具体来看,从一个随机初始化的

模型 推理 算法 deepseek aime 2025-04-05 12:42  3

DeepSeek-R1论文解读

介绍了我们第一代推理模型,DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是一种通过大规模强化学习(RL)训练的模型,在没有监督微调(SFT)作为初始步骤的情况下表现出显著的推理能力。通过RL,DeepSeek-R1-

论文 推理 rl cot aime 2025-03-31 00:55  4

从零复现满血版 DeepSeek-R1

近期,我们团队发布了 Ligth-R1,是第一个从零复现满血版 DeepSeek-R1 的工作(几个小时后QWQ-32B发布),虽然大家都在关注 QWQ-32B,但是 QWQ-32B 只开源了模型,而我们把模型、数据、代码全部都开放出来了。

开源 rl dpo cot aime 2025-03-14 21:16  7

大模型慢思考推理技术获系列成果!九章云极DataCanvas联合团队发布R1复现以及改进技术

近日,九章云极DataCanvas公司联合中国人民大学STILL项目团队、北京智源研究院团队联合在大模型慢思考推理技术上形成系列技术成果,初步复现类R1推理模型,完整开源了类R1类的实现细节以及训练技巧。进一步,创新性提出使用代码工具来增强模型推理性能,在AI

模型 推理 技术 r1 aime 2025-03-12 17:24  10

o3-mini数学推理暴打DeepSeek-R1?

就在刚刚,AIME 2025 I数学竞赛的大模型参赛结果出炉,o3-mini取得78%的最好成绩,DeepSeek R1拿到了65%,取得第四名。然而一位教授却发现,某些1.5B小模型竟也能拿到50%,莫非真的存在数据集污染?

数学 推理 aime 2025-02-09 10:28  8

o3-mini完全指南:一个被DeepSeek破大防的模型

DeepSeek真他妈的是个逆天的操蛋玩意儿!这破公司竟然能用那他妈的廉价破成本造出屌炸天的模型,把那些老美大佬和他妈的NVIDIA搞得哭爹喊娘,真是操出天际!虽然它他妈的还存在点不足、偶尔操蛋得让人火大,但总体上已经他妈的震撼了整个市场,简直是他妈的颠覆了老

模型 deepseek aime 2025-02-07 18:29  7

展会速览 | 2月重磅抢先知! 关注国际文旅展会的小伙伴速来

简介:作为全球五大旅游展览之一,该展会得到了土耳其共和国文化和旅游部、土耳其共和国贸易部、伊斯坦布尔市政府和土耳其航空公司、土耳其酒店经营者联合会(TÜROFED)以及土耳其旅游投资者协会(TTYD)的大力支持。展会每年都能吸引数千名行业专业人士和游客,从全球

展会 aime frieze 2025-02-05 15:58  7

训练1000样本就能超越o1,李飞飞等人画出AI扩展新曲线

今年 1 月,DeepSeek R1 引爆了全球科技界,它创新的方法,大幅简化的算力需求撼动了英伟达万亿市值,更引发了全行业的反思。在通往 AGI(通用人工智能)的路上,我们现在不必一味扩大算力规模,更高效的新方法带来了更多的创新可能。

训练 o1 aime 2025-02-05 14:41  6