摘要:GPT4o、GPTo3mini,推理和搜索功能单开或者双开均回答错误。
提问内容为:第五人格福尔摩斯活动的抽奖次数没用完过期会怎么样?
只有通义的联网搜索准确地去找官网信息,并回答正确。
但是开启深度思考后反而回答错误。
deepseek:
无论是否开启R1深度思考,都明确回答错误。
备注:知乎直答、腾讯元宝几种模式下也都回答错误。
豆包:
无论是否开启深度思考均明确回答错误。
kimi:
长思考模式下虽然不正确,但很诚实地说没找到信息。
GPT4o、GPTo3mini,推理和搜索功能单开或者双开均回答错误。
Claude3.7sonnet,据说是目前最强的AI大模型,回答错误。
grok3,deepserch和think均回答错误。
谷歌的Gemini deepsearch
回答应该算正确,但不如通义。
常规模式下回答错误:
根据搜索记录模式下回答错误:
最惊喜意外的居然是我最初相遇的AI:Bing。(那个时候大家还叫它Bing大小姐)后来觉得降智严重我基本没用微软Bing了。
非常精准只搜索了一个网站即官方网站就给出答案了,而且Bing能理解常规用语的“抽奖次数”和游戏术语“精华”的等价性,从提问到给出回答不到1秒时间,令我非常意外!
其实这种测试主要是考察AI模型对人类语言的理解能力和搜索官方答案的导向性。只要能够找到这个游戏官方网站基本都能回答正确:
第五人格×Sherlock Holmes福尔摩斯联动开启
“获取精华后请尽早开启,若在联动结束时玩家还持有未开启的精华,系统将为玩家自动开启,并将所得奖励通过邮件自动发放给玩家;联动宝箱中,玩家在获取全部奇珍时装前,不会再获得已拥有的奇珍时装。”
后续还跟它讨论了《拐点》和约翰塞尔中文屋问题,以及我之前写的一篇AI的心灵哲学论文。
使用Bing得开全局模式,选择日本或者台湾地区节点(香港地区节点似乎也不行),规则模式打开不了,不过可以打开后再关闭。
总结:中文语料搜索能力(包括但不限于涉及有官方资料的):Bing>通义联网搜索≥谷歌Gemini deepsearch(思考时间太长)>Kimi长思考>其它
来源:星亨聊科技