研究人员使用公共广播电台的“星期日之谜”问题为AI推理模型设定基准
每周日,美国国家公共广播电台(NPR)主持人、《纽约时报》填字游戏大师威尔-肖茨(Will Shortz)都会在一个名为"周日谜题"(Sunday Puzzle)的长时段节目中向成千上万的听众提问。 虽然这些谜题是在没有太多预知知识的情况下就能解开的,但即使对
每周日,美国国家公共广播电台(NPR)主持人、《纽约时报》填字游戏大师威尔-肖茨(Will Shortz)都会在一个名为"周日谜题"(Sunday Puzzle)的长时段节目中向成千上万的听众提问。 虽然这些谜题是在没有太多预知知识的情况下就能解开的,但即使对