阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95% 目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推理时间扩展(如DeepSeek-R1),但会增加内存和时间成本。 策略 内存 mlp cfg 并行计算 2025-05-28 15:04 4
何恺明等降维打击!彻底颠覆AI生图,无需预训练一步到位 何恺明团队又一力作!这次他们带来的是「生成模型界的降维打击」——MeanFlow:无需预训练、无需蒸馏、不搞课程学习,仅一步函数评估(1-NFE),就能碾压以往的扩散与流模型! 训练 何恺 cfg 恒等式 fid 2025-05-21 14:47 4