鉴于OpenAI和微软目前大约在数十万块GPU上运行GPT的推理,对预训练进行scaling似乎仍然能够提供所需的成本节约。参考资料:https://semianalysis.com/2024/12/11/scaling-laws-o1-pro-architecture-reasoning-infrastructure-orion-and-claude-3-5-opus-failures/#scaling-training-is-cheaper-than-scaling-inference-time-compute摘要:鉴于OpenAI和微软目前大约在数十万块GPU上运行GPT的推理,对预训练进行scaling似乎仍然能够提供所需的成本节约。参考资料:https://semianalysis.com/2024/12/11/scaling-laws-o1-pro-archite
来源:小贺看科技
免责声明:本站系转载,并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题,请在30日内与本站联系,我们将在第一时间删除内容!