我给 GPT、豆包、通义和 IMA 2.0 布置了同一份作业,谁最像一个能上班的研究员?

B站影视 欧美电影 2025-10-28 00:18 3

摘要:昨天参加了 IMA 的 Open Day,他们发布了 2.0 内测版。最大亮点是新增了一个“任务模式”,可以在对话框里直接 @个人知识库,也能 @知识广场里的公开知识库,基于这些知识源和大模型一起完成报告写作、播客脚本、甚至研究总结。简单说,IMA 正在从“知

昨天参加了 IMA 的 Open Day,他们发布了 2.0 内测版。最大亮点是新增了一个“任务模式”,可以在对话框里直接 @个人知识库,也能 @知识广场里的公开知识库,基于这些知识源和大模型一起完成报告写作、播客脚本、甚至研究总结。简单说,IMA 正在从“知识库工具”往“Copilot 工作台”靠近。

大钱聊AI

,赞3

这个“任务模式”,其实就是 IMA 的深度研究功能。过去几个月,这几乎成了大模型竞争的新主线。OpenAI 推出了深度研究功能,让 GPT 能系统整理资料、追溯引用、生成完整报告;通义上线的研究功能,强化逻辑链和推理深度;豆包和 Kimi 也都更新了“研究模式”,支持多文档分析和主题整合。大家都在往同一个方向靠拢——让模型从“会回答问题”进化成“能做研究”。

这是一场行业的结构性转折。大模型的比拼,已经从生成文本的能力,转向生成认知的能力。信息的堆积早已不再稀缺,真正有价值的,是能把碎片化信息重组成结构化洞察。深度研究功能的背后,是模型试图学会“像人一样思考”:能搭建思维框架、整合知识链条、在复杂问题中形成判断。

IMA 2.0 的设计正体现了这种趋势。它不仅理解自然语言任务,还能自动调用专家知识库,把人类研究者积累的知识转化为可计算的推理素材。你只需输入一句话,比如“研究从知识库到智慧大脑的演进路径”,它就会检索相关知识库,整合成果,输出一份逻辑完整的报告。

听上去很未来,但在现场我确实被它的任务执行过程震了一下——几乎没有提示词的打磨,也不需要繁琐设置。它理解研究任务的方式,比我预期的更自然。

于是我做了个小实验。
我把同一个研究任务交给了 GPT、豆包、通义和 IMA,想看看,当面对一个开放性、需要系统思考的问题时,它们的表现究竟有多不同。(其实我还测了KIMI的,但是直到我文章写完,它的深度思考模式都没交出作业)

我们看看谁最像一个能上班的研究员?

1

布置作业

我给四个模型下达的任务是:

研究主题:从知识库到智慧大脑的理论与实践。
要求:系统梳理知识管理、知识创造和群体智慧的主要理论,结合企业或组织的实践案例,形成一份结构化研究报告,附上文献引用或出处。

这其实是一个偏“认知结构”的任务,既考察信息组织能力,也考察模型的逻辑推演深度。

2

四份“作业”

GPT5.0研究

GPT的报告最像传统学术论文,结构严谨、概念清晰。

GPT的文字稳定、条理分明,但缺乏新的洞见。

它像一位训练有素的研究助理,能把事情说清楚,却不太会说出让人眼前一亮的观点。

研究报告截图节选:

IMA2.0内测版任务模式

IMA的报告最短,但指向最清晰。

它的内容没有多余修饰,也没有大段引用,但逻辑紧密,结论准确。

你能感受到它“理解”了题目,而不只是复述信息。

研究报告截图节选:

全文可以查看?(复制链接到浏览器)

https://ima.qq.com/mission-report?reportId=Cjk2OGZhZjQzMWY5ZjBmMDVjZDhkMjEwNTk1OGE5MmYwNTNmYWRfbHR3MXQ4XzE3NjEyNzY5Nzk4ODc

豆包深度研究模式

豆包的报告信息密度极高,理论框架完整。

豆包写得“全”,几乎把所有理论都引用了一遍,甚至补上了国内外政策差异的分析。

它像一位热情的研究生,思路很开,但表达太密,让人读到后半段需要喘口气。

研究报告截图节选:

全文可复制?(复制链接到浏览器)

通义分析研究模式

通义的报告显得更务实。它的文字逻辑简洁、条理清晰

通义的报告更像技术团队的成果总结,稳妥、有条理,但不带思想性。

它擅长解释“怎么做”,但不太解释“为什么这样做”。

研究报告截图节选:

3

互评环节

实验的第二步,我让四个模型互相评价。

GPT的评价

GPT是四个“研究员”中最谦虚客观的一位,唯一一个没有把最佳奖颁给自己的。它经过综合对比,得出的结论是:

IMA四星半,同事的报告是最优秀的。学术脉络完整、理论与实践平衡;

自己三星半,排第二,技术思路强。,但缺乏组织管理深度。

豆包两星半,第三,实践丰富但学术深度不足。

通义两星,第四,量大但缺逻辑。

豆包的评价:

豆包的评分维度相比GPT更全面,更符合对一个研究员工作内容的评估指标,且有量化分。

但这也能看出豆包的风格,就是它的思维方式比较像大厂的P6,P7,结构化能量很强,执行力很强(无论是研究报告还是评分报告,它都是第一个交作业的。)但是它就是有点“匠气”、理工男味道太重,就是特别容易陷入刻板框架、模版和执行细节中去(确实和字节员工工作思维风格很像,聪明快速)。它的综合评价是:

自己第一,各维度综合最优。

其他的没有排名,但是可以看出,IMA有薄弱项,但是部分维度比较优秀。

GPT的打分是各维度最均衡的,但是没有单项特别亮眼的。

通义依然是最差。

如果说按照分数加总来算,排名是:豆包第一、IMA第二、GPT第三、通义第四。

通义的评价:

通义很有意思,给自己打了五颗星,并且每一个单一维度都是全场最高分。

给豆包打了一颗星,全场最差,理由是内容不全。

给GPT不予置评,理由没有提供内容无法评估(GPT的报告内容有发给他)。

给IMA的综合评分是三颗星,其中有三个维度是四颗星。

相当于结论是:通义第一,IMA第二,豆包第三,GPT直接出局。

IMA 的评价:

IMA的评估维度和角度和通义接近,他给自己打了第一名。其他几个没有直接说名次,如果说按照分数加总来算,排名是:

IMA第一,豆包/通义并列第二,GPT第三。但是通义文献严谨度只有两颗星,也就是说真实工作采纳的概率会比较低。

4

知识工作方式的重新定义:

AI从“工具”到“同事”

整体看下来,IMA 2.0 的任务模式综合评价最高。

这并不容易。它能拿到最高分,我看下来,并不在于模型本身更聪明,而是因为它背后有更深的“知识结构”。IMA 的底层大模型是 DeepSeek 与元宝的结合,但真正让它脱颖而出的,是那套“知识广场”机制——它不再只依赖通用语料,而是能直接调用由各领域专家长期积累的专业知识库。那些知识不是随机采集的网络内容,而是研究者、教师、从业者多年来沉淀下来的经验与判断。这使得模型的输出更具现实逻辑,也更接近人类长期学习形成的思维方式。

从用户体验的角度看,豆包和 IMA 的内容呈现最清晰,结构化和视觉化做得最好,能让人快速抓住重点。GPT 在风格上显得中庸,但胜在稳定与可靠,它像一个值得信赖的同事——即使没有惊喜,也不会出错。

但这个究竟谁是最好用的一个,这个见仁见智。比方说,从我工作需求的角度来看这四位同事的作业,我会认为GPT和豆包的更好,因为他们的内容更翔实跟深入,我作为研究员看了更多的信息之后会逐渐形成自己的认知判断。IMA在我这里不够好的问题就是,它输出的报告过于极简,它更适合那些想要快速了解一个新领域的使用场景,很快get到脉络,但是内容细节还是太少,缺少细节去支撑我们加深对知识的理解。

如果把这场测试放到人才标准上来看,一个优秀的研究员除了具备智商和勤奋,更重要的是对领域的长期积累——理解产业、洞悉脉络、掌握语境。AI 也是如此。模型的“聪明”只是起点,长期学习与深度协同才是未来竞争的关键。IMA 的优势在于,它让 AI 能够像研究员一样,基于知识库不断迭代理解、积累经验、修正认知。这种机制,本质上是一种“组织化学习”的雏形。

在更大的语境下,这预示着知识工作的范式正在重构。过去二十年,我们依赖搜索与文件夹来管理知识,信息被动存储、难以复用。而现在,知识正在成为可以被实时调用、被主动推理的生产要素。AI 不再是外部工具,而是知识生态中的合作者。它的存在让“知识”从静态资产变成动态资本,让组织从信息堆叠转向认知循环。

从经济角度看,这是生产力的再分配。知识不再掌握在少数专家或组织中,而被转化为一种可流动的智能基础设施。未来的组织,竞争的核心不再是谁拥有更多信息,而是谁拥有更高的认知速度与学习效率。AI 在其中的角色,将越来越像一种“认知操作系统”——连接人类经验与机器能力,让知识真正进入复利时代。

我们正在见证一个新的阶段:工具在变成同事,数据库在变成智慧大脑。

本文GPT/豆包/IMA/通义亦有贡献

AI博主|科技与商业作者|聚焦AI与商业创新、案例与品牌叙事|中欧AI与管理创新研究中心秘书长|《超级智体》《创业裂变》《四轮驱动》作者|前高质量发展研究院院长、字节高级营销专家、中欧新型案例负责人、易观智库研究总监

钱文颖,中欧AI与管理创新研究中心秘书长,案例智库、引力场实验室发起人

来源:IT时代网

相关推荐