GPT-5、Grok 4、o3 Pro都零分,史上最难AI评测基准换它了 前段时间,谷歌、OpenAI 的模型都在数学奥林匹克(IMO)水平测试中达到了金牌水准,这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力? 评测 grok o3pro aei aai 2025-08-15 14:16 3