SRPO:强化学习让多模态大语言模型推理能力更上一层楼 在2025年6月发布于arXiv预印本平台的一项最新研究中,由俄亥俄州立大学的万忠伟(Zhongwei Wan)领衔,联合来自凯斯西储大学、帝国理工学院、杜克大学等多家知名院校的研究团队开发了一种名为SRPO的创新技术。这项研究的全称是"SRPO: Enhan 模型 模态 推理 语言 srpo 2025-06-05 23:57 4