何恺明LeCun改造Transformer!9行代码替代归一化性能不减还加速
但团队认为可以换用一种非常简单的技术,他们提出DyT(Dynamic Tanh),直接替代Layer Norm或RMSNorm,性能达到或超过标准Transformer。
transformer lecun 何恺 lecun改造 改 2025-03-14 15:31 2
但团队认为可以换用一种非常简单的技术,他们提出DyT(Dynamic Tanh),直接替代Layer Norm或RMSNorm,性能达到或超过标准Transformer。
transformer lecun 何恺 lecun改造 改 2025-03-14 15:31 2