token危机解决?扩散模型数据潜力3倍于自回归,重训480次性能仍 在当前大语言模型(LLM)的持续发展中,面临的挑战之一是可用的高质量训练文本数据(tokens)即将枯竭,并成为限制模型性能持续提升的关键瓶颈。另外,新增的高质量数据来源少,获取成本高,去重后更加稀缺。因此,当模型规模继续扩大,所需数据量按 Scaling L 模型 危机 token dlms nll 2025-08-11 11:19 3