aai

GPT-5、Grok 4、o3 Pro都零分，史上最难AI评测基准换它了

前段时间，谷歌、OpenAI 的模型都在数学奥林匹克（IMO）水平测试中达到了金牌水准，这样的表现让人很容易联想到 LLM 是不是已经具备了解决博士级科研难题的推理能力？

评测 grok o3pro aei aai 2025-08-15 14:16 3