强化学习之父当头一棒:RL版「苦涩的教训」来了!
强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝:如今,人类已经由数据时代踏入经验时代。通往ASI之路要靠RL,而非人类数据!
学习 llm rl asi alphaproof 2025-04-21 13:20 2
强化学习之父Richard Sutton和DeepMind强化学习副总裁David Silver对我们发出了当头棒喝:如今,人类已经由数据时代踏入经验时代。通往ASI之路要靠RL,而非人类数据!
学习 llm rl asi alphaproof 2025-04-21 13:20 2