Hugging Face集成Groq,三行代码实现10个开源模型推理速度超每秒800 token

B站影视 电影资讯 2025-06-17 19:56 1

摘要:美国AI芯片创企Groq昨天宣布,其已正式成为Hugging Face Hub支持的推理服务提供商,推理服务已无缝集成至Hugging Face的JS和Python客户端SDK,开发者可便捷地将各类模型与优选服务提供商对接使用。

编译 | 金碧辉

编辑 | 程茜

智东西6月17日消息,美国AI芯片创企Groq昨天宣布,其已正式成为Hugging Face Hub支持的推理服务提供商,推理服务已无缝集成至Hugging Face的JS和Python客户端SDK,开发者可便捷地将各类模型与优选服务提供商对接使用。

开源平台Hugging Face目前托管超50万个AI模型,月活跃开发者突破300万,已成为全球最大的开源AI模型社区。Groq作为首家高速推理供应商正式接入该平台后,开发者仅需三行代码,便可直接在Hugging Face Playground或API中一键调用Groq服务,账单统一结算至平台账户。

此举使金融科技、工业研发等领域的AI原型验证周期缩短50%,为开发者提供了低门槛高性能工具链支持。

一、131K上下文独家支持,Groq推理服务集成至Hugging Face

Groq的发言人在接受VentureBeat采访时透露:“Groq是目前唯一一家能够支持完整131K上下文窗口的推理服务提供商,与Hugging Face的集成,极大地拓展了Groq生态系统的边界。这一合作给开发者带来了更多选择,进一步降低了采用Groq快速且高效的AI推理技术的门槛。”

据外媒VentureBeat报道,双方的联合声明中透露:“Hugging Face与Groq之间的合作,是推动高性能AI推理变得更易获取、更高效的重要一步。”

Groq面临着基础设施与成本等方面的挑战,公司的发言人在接受VentureBeat采访时还透露:“即便Groq今年将基础设施的部署数量提升至计划的两倍,依旧难以满足当下的需求。这意味着市场对于高性能推理计算有着巨大的渴求。”

Groq为Hugging Face平台提供的推理服务已支持Llama 3、Gemma及Qwen3 32B等10大主流模型,推理速度最高达800 token/s。此外,Groq还是目前唯一支持Qwen3 32B完整131K上下文窗口的推理服务提供商。

二、Groq解锁Qwen3 32B全上下文能力,长文档处理效率翻倍

6月12号,Groq成为首家支持阿里巴巴Qwen3 32B模型131K全上下文窗口的高速推理服务商。

此次合作的核心亮点在于:Groq平台实测Qwen3 32B推理速度达535 tokens/s,经独立第三方机构Artificial Analysis验证为当前全球最快;同时,Qwen3 32B支持131K超长上下文窗口,Groq是全球唯一能完整运行该模型全量语境的推理服务商。

独立基准测试公司Artificial Analysis关于Qwen3 32B的相关验证信息

阿里巴巴Qwen3 32B是一款参数规模达328亿的大语言模型,专为复杂推理与高效对话优化,支持超100种语言及方言。

通过Groq创新的语言处理单元(LPU)架构,Qwen3 32B+Groq组合首次实现131k完整上下文窗口支持。

成本方面,Groq为Qwen3 32B提供的按需定价为:输入tokens 0.29美元(约合人民币2.08元)/百万、输出tokens 0.59美元(约合人民币4.24元)/百万。

在Groq平台,Qwen3 32B模型支持特有的“思考/非思考”双模式动态切换机制,可根据推理任务的复杂度自动适配最优运行模式。

基于对超100种语言的支持能力,Qwen3 32B模型单次请求即可处理500页技术文档或多轮跨语种对话,显著降低长文本信息丢失风险;在AIME 24等基准测试中,Qwen3 32B模型+Groq平台组合以数学推理79.5分、代码生成66.4分的实测数据,超越参数规模超过其20倍的DeepSeek R1模型。

目前,开发者可通过GroqCloud平台零门槛使用模型:在GroqChat中输入qwen/qwen3-32B即可进行交互演示,在开发者控制台可快速配置API,也可通过Hugging Face以三行代码完成服务集成。

中小团队无需硬件投入即可在10分钟内在平台部署长文本分析应用,借助LPU架构实现三倍文本处理加速;中小团队还可以注册免费账户或升级付费套餐可解除速率限制,支持业务弹性扩展。

三、基础设施与用户增长,Groq盈利前夜的两大难题

据外媒VentureBeat昨日报道,Groq的上述举措堪称其向亚马逊云服务(AWS)、谷歌云等现有云服务提供商发起挑战的关键一步。但当前Groq也面临诸多挑战,其基础设施虽已覆盖美国、加拿大及中东地区,但与AWS在全球布局的28个地理区域、谷歌云的26个区域相比,物理节点数量仍存在显著差距。

Groq自研LPU芯片单系统部署成本达1144万美元(折合人民币约8200万元),若按当2000万token/s的处理速度推算,单台LPU系统每日可处理172.8亿token,仅能产生约500美元收入(折合人民币约3587.3元),需连续运营63年才能覆盖硬件成本。

今年6月,知名科技市场研究机构CB Insights分析透露,Groq需在未来12个月内将用户规模提升10倍以上,才能通过规模效应实现盈亏平衡。

结语:Groq推理速度碾压GPU十倍,模型训练依赖与基建瓶颈待解

Groq凭借LPU架构的确定性计算优势,从第三方机构Artificial Analysis的验证基准测试结果透露,实时推理场景中实现较GPU十倍的速度碾压,为长文本分析、跨国多语种应用创造新可能。

研究公司Grand View Research今年6月透露,受各行各业AI应用部署不断增加的推动,到2030年,全球AI推理芯片市场规模将达1549亿美元(折合人民币约为1.11万亿元)。然而,Groq芯片仅限推理场景,模型训练仍需依赖英伟达GPU,在一定程度上增加了开发者与企业用户的使用成本和技术风险。同时Groq的基础设施扩张速度能否匹配Hugging Face带来的流量爆发仍是未知数。

如果Groq的基础设施无法满足用户增长的需求,可能会导致服务质量下降,影响用户满意度和口碑。

来源:智东西

相关推荐