摘要:印度最大的AI公司估值10亿美元的Sarvam,开源了,基于Mistral的混合模型Sarvam-M-24B,支持印地语、孟加拉语等10种印度语言,也是印度首个著名开源模型。
印度最大的AI公司估值10亿美元的Sarvam,开源了,基于Mistral的混合模型Sarvam-M-24B,支持印地语、孟加拉语等10种印度语言,也是印度首个著名开源模型。
却遭到了Menlo Ventures投资人、著名AI评论人Deedy Das的严重吐槽,两天时间下载量只有23次(至今只有700多)。而之前两个韩国大学生开发的语音克隆模型,上个月下载量就达到了20万次。
这条吐槽推文浏览量破260万,引起了不小争论。
其实这位老哥预测挺准的,4月29日他就吐槽过印度大模型,认为,印度自行研发AI大模型没有太大的价值,除非它在某些领域能够明确达到世界级水平。与软件驱动的服务(如Swiggy、Flipkart)或社交平台(如微信、小红书)不同,一个面向封闭市场大模型并没有什么内在优势。
还特意说了国内外爆火的DeepSeek,其火的原因不是因为它来自中国,而是能够以很低成本提供接近前沿模型的性能,并且可能在中文方面表现更佳。
对于这个事情,印度网友表示,重要的问题是——有什么用呢?你知道,在印度,几乎所有有意义的交流都是用英语进行的。那么,当Gemini已经在10种不同的印度语言中表现出色时,拥有一个印度本地语言模型的意义何在呢?
在大多数情况下,印度人更擅长成为成熟产品的优秀员工或管理者,而非出色的创业者。即便这个Sarvam AI 的模型也是建立在 法国的Mistral的基础之上。
无意冒犯,有谁能说出一个国际知名的印度产品吗?
印度在看待AI的方式上存在误区。别再重复造轮子,也别试图和中国竞争了!
我们不需要更多基础模型,除非该模型是为解决特定行业问题而定制的。全球大型语言模型在通用领域表现出色,应该基于它们来开发AI应用程序。
估值10亿美元的 Sarvam 两天内仅获得23 次下载。而Sofi 一款几天前在印度面向小部分用户推出的早期测试阶段购物智能体,已经实现了超过 60% 的用户参与度。
这种与西方和中国竞争的心态必须停止。只有不再想着竞争,才能真正实现创新。
我真的很欣赏 Sarvam 正在做的工作。没错,这是一个 240 亿参数的模型,而且它确实不完美。
但我们必须明白,技术发展需要分阶段进行 —— 快速试错、小步失败、从中学习,然后才能大获成功!
我看过很多不同的观点,但别忘了他们刚拿到融资啊。让他们先进入状态,之后自然会推出更有价值的成果。
他们尝试做的事情值得称赞。并非每一次发布都能成功。
至少他们正在印度创建一个生态系统,并培养相关人才。
这就像我们在奥运会上看到的故事一样。我们不够自信去在绝对水平上竞争,而是满足于仅仅参与。印度似乎只是想保持漂浮状态,而不是努力去游泳,这实在是令人遗憾。
根据Sarvam.ai官网消息显示,Sarvam-M在多个基准测试中表现出色,特别是在印度语言任务、编程和数学推理方面。例如,在印度语言基准测试中,Sarvam-M的平均提升达到了20%,在数学基准测试中提升了21.6%,在编程基准测试中提升了17.6%。
Sarvam-M在多语言任务中也展现了强大的能力,例如,在罗马化印度语言的GSM-8K基准测试中,性能提升了86%。
Sarvam-M的开发过程分为三个主要步骤:监督式微调(SFT)、带有可验证奖励的强化学习(RLVR),以及推理优化。在监督式微调阶段,Sarvam AI的目标是通过高质量的提示和完成来提升模型在印度语言、编程和数学等领域的表现,同时确保模型输出符合印度文化价值观。并从Hugging Face的微调数据集中收集了超过1150万个提示,经过去重和过滤后,最终筛选出约370万个高质量、多样化的提示。
这些提示被分为16个大类,并通过聚类和语义去重等技术优化分布。为了生成高质量的提示完成,Sarvam AI开发了一种自定义评分模型,结合生成式评分和真实值评分,显著提高了生成内容的质量。
此外,通过检测和调整模型输出中的政治偏见,并重新生成具有文化相关性的回答,Sarvam AI确保模型的输出更加中立且贴近印度文化背景。
在训练模式上,Sarvam AI采用“非思考模式”和“思考模式”进行训练。在思考模式下,模型会在生成最终回答之前用英语生成推理标记。通过两阶段训练,模型在印度语言任务上的表现得到了显著提升。
在强化学习阶段,强化学习是提升模型在特定任务上表现的重要手段。Sarvam AI通过精心设计的任务课程和奖励机制,显著提升了模型在数学、编程和语言任务上的表现。
设计了一套涵盖数学、编程、指令遵循和翻译等多个领域的任务课程。通过分阶段训练,模型在不同任务上的表现得到了平衡发展。在强化学习中,Sarvam AI采用了部分奖励机制,特别是在编程任务中,通过测试用例的通过率来计算奖励。
此外,通过调整提示的采样策略,确保模型在训练过程中能够接触到适当难度的任务。在算法优化方面,Sarvam AI选择了GRPO算法,相比传统的PPO算法,GRPO无需训练单独的价值函数,显著降低了内存开销。
在推理优化阶段,推理优化是确保模型在实际部署中高效运行的关键环节。Sarvam AI通过后训练量化和前瞻解码等技术,显著提升了模型的推理效率。通过将模型从bfloat16量化为fp8格式,Sarvam AI在保持模型精度的同时,大幅降低了模型的存储和计算需求。实验表明,精心设计的校准数据集对量化效果至关重要。
在H100 GPU上,Sarvam AI通过调整数据类型、模型并行度、并发量和前瞻解码等参数,找到了成本效益最高的部署配置。优化后的模型在推理速度和成本控制方面表现出色。
下面是Sarvam-M开源地址,有兴趣的小伙伴可以试试
开源地址:https://huggingface.co/sarvamai/sarvam-m
本文素材来源网络、Sarvam-M,如有侵权请联系删除
来源:小孙科技频道