摘要:人工智能发展日新月异,其“智能”究竟达到了何种程度?AI与人类PK孰强孰弱?对劳动力市场将产生多大冲击?在哪些工作岗位中部署AI更具经济价值?这些都是企业CEO和政策制定者在当下所关注的核心问题。
人工智能发展日新月异,其“智能”究竟达到了何种程度?AI与人类PK孰强孰弱?对劳动力市场将产生多大冲击?在哪些工作岗位中部署AI更具经济价值?这些都是企业CEO和政策制定者在当下所关注的核心问题。
长江商学院科技与运营杰出院长讲席教授孙天澍在近日被信息系统领域国际顶级期刊《信息系统研究》(Information Systems Research,ISR)正式接受的合作论文《从人类智能视角解析生成式AI:系列实验研究》(Unraveling Generative AI from A Human Intelligence Perspective: A Battery of Experiments)中,开创性地提出首个基于“人类智能”的AI智能水平系统性评估框架,对上述问题的思考提供了新视角。
研究速递
● 研究首次揭示了AI大模型(LLMs)在认知、情绪、社交和创造性四大核心人类智能维度上的能力边界。GPT-4在认知、情绪、创造性三项智能已超人类,但“社交智能”仍是短板。
● 研究为518个职业类别分别构建了完整的“智能需求画像”,衡量大模型是否“具备胜任岗位所需智能”,发现:AI大模型与计算机、法律、金融、新闻编辑等“智能密集型”知识岗位适配度最高;而在服务类、生产制造、运输物流类岗位,AI智能适配度偏低。
● 高度智能匹配度不意味着高经济价值与投资回报。研究发现第三产业岗位(如销售、办公室助理、行政支持、客户运营等)是AI真正红利洼地,成为AI部署的首选目标领域。
● 研究构建了一个可部署、可复用的“AI职业智能评估系统”,帮助企业衡量和对比多个模型(如GPT-4)在不同岗位上的表现与价值,指导人机协同的未来组织。
随着大模型逐步融入人类社会,为了理解其潜在影响,确保其有效运作并在以人为中心的结构中无缝共存、共创,有必要通过人类标准评估大模型的能力边界。
而无论在学术界还是产业界,都长期缺乏从“人类智能”视角全面评估人工智能的系统性衡量方法。现有对AI大模型能力的评估,大多局限在AI完成标准化考试、代码生成等技术任务上。这种基于“特定任务”的衡量方式,难以洞悉AI在认知、情感、社交、创造等人脑核心能力上的真实水平,更无法为更广范围的人机协作提供有效指导。
智能不仅仅是执行特定任务的低级能力,它还包括解决问题和推理、泛化知识、管理情绪、展示社交和人际技能、展现创造力以及对世界的深刻理解等更高级的视角。目前,大模型是否真正拥有这些更深层次的智能仍然是该领域一个复杂且未解决的问题。
针对这一关键研究空白,长江商学院科技与运营杰出院长讲席教授孙天澍与马里兰大学史密斯商学院助理教授王雯、上海财经大学商学院助理教授裴思琦在被顶级期刊ISR接受的合作论文中从“以人为本”的视角出发,基于人类行为理论和实验,创新提出以人类智能为基准,全面理解大模型整体智能的新框架。
“人类智能评估人工智能”的框架将大模型类比为人类,从认知、情感、社交和创造智能四个维度理解大模型智能的完整范围,并通过大规模对比实验,首次揭示了大模型(LLMs)在认知、情绪、社交和创造性四大核心人类智能维度上的能力边界及其对劳动力市场的深远影响,填补了从人类中心视角评估AI智能水平的研究空白。
Information Systems Research(《信息系统研究》)是世界公认的管理学顶级期刊UTD24列表中信息管理类排名第一的期刊,创刊于1990年,在国际管理科学界享有极高学术声誉。Information Systems Research同时是英国金融时报Financial Times评定的50本商学院顶级期刊(简称FT50)之一。
Information Systems Research聚焦信息系统对企业、组织和社会的影响,覆盖信息技术、管理科学、经济学、心理学等多个学科的交叉研究,主要发表信息系统设计、开发、实施、管理以及应用等方面的文章。
长江商学院科技与运营教授、杰出院长讲席教授、数字化转型研究中心主任孙天澍教授表示:
随着AI加速进入产业应用,AI Agent指数级涌现,人机协作场景激增,我们需要全新的、从人类智能视角出发的AI智能评估标准,以便更全面地理解、评估与掌握AI大模型的能力边界,指导和支持未来的人机协作。
希望这一新框架能为企业和政策制定者提供可复用的决策工具,帮助他们判断何时何地以何种方式将大模型有效的融合进‘以人为本’的工作场景和社会分工中。
图注:孙天澍教授合作团队基于心理学和行为经济学首创从人类智能评估AI新框架,按人类智能视角划分为四大核心维度进行人类智能–人工智能对比实验
该研究基于近一世纪人类行为科学的研究理论,将大模型智能按人类智能视角划分为四大核心维度:
● 认知智能 (Cognitive Intelligence)
● 情绪智能 (Emotional Intelligence)
● 社交智能 (Social Intelligence)
● 创造智能 (Creativity)
孙教授与合作团队设计并实施了大规模的人类智能–人工智能对比实验,涵盖676名人类参与者,包括来自不同教育背景(三类教育层次)及职业背景(管理类与技术类岗位)的参与者,系统评估大模型在四大核心人类智能维度、17个子智能维度上的表现。
同时,孙教授团队开展了大规模专家评估实验,招募了2296名领域专家,覆盖23个职业大类、518个职业类别,用于精确评估不同职业对多维智能的需求,并据此支持大模型的职业智能匹配与职业替代分析。此外,从人类智能对人工智能的评估包含17类行为实验、共327项具体任务,针对每个任务对GPT-3、GPT-3.5和GPT-4等模型分别重复运行50次,从而构建出稳健且高置信度的大模型智能画像。
上述人类实验、专家评估与高频大模型测试相结合,形成了目前关于人工智能的最系统、最全面的人本视角评估之一,为本文的研究发现与政策建议提供了坚实而可信的实证支撑。独特阐释了大语言模型对全球劳动力市场影响背后的潜在原理,以及对未来人机协同智能组织的展望。
研究团队发现:
发现一: AI三项智能超人类,但“社交智能”仍是致命短板
研究团队发现,大模型的“人类智能”谱系呈现出鲜明的优势与短板:
结果令人震惊:GPT-4在三项智能上已经全面超越人类平均水平:
•认知智能:比如逻辑推理、系统思维
•情绪智能:情绪调节、态度调控
•创造智能:发散思维、创新想象
但也揭示出一个显著短板——社交智能严重不足。
GPT-4在“社交兴趣”“自我效能”“心理状态理解”等关键子维度都远低于人类平均,缺乏共情力和真实社会连接。这意味着它仍难以胜任教育、心理咨询、客户服务等“人情味”要求高的工作。
而且从GPT-3到GPT-4虽然认知和情绪能力飞跃显著,但社交智能几乎无进展,说明目前大模型训练机制本身存在局限。
发现二: 用“智能供需匹配”理解职业冲击,开辟新视角
本研究的一项重大突破是,首次提出通过人类智能维度来连接AI模型能力与职业需求,实现从“智能供需匹配”角度理解AI对岗位的冲击与价值。
传统评估大模型对劳动力市场的影响,多基于任务分解与语言匹配(如Eloundou等2023),难以解释“为什么AI适合某类岗位,却无法胜任另一类”。而本研究提出的智能框架,则为每个岗位构建一套完整的“智能需求画像”,为每个大模型生成“智能能力画像”,并通过17个智能子维度的映射,衡量模型是否“具备胜任岗位所需智能”。
这一方法的核心思想是:每一份工作都要求一组特定的智能能力,而每个大模型也有其智能强弱配置。因此,职业影响本质上取决于“模型智能”是否覆盖“岗位智能需求”这一核心关系。
这不仅弥补了传统方法在解释机制上的缺陷,还为组织与政策制定者提供了系统、透明、可解释的评估工具,可用于岗位设计、AI部署、再培训路径规划等关键场景。
职业-LLMs智能适配的关键发现:
•GPT-4 与“智能密集型”知识岗位高度契合
通过智能匹配计算,GPT-4与计算机、法律、金融、新闻编辑等高认知与情绪智能要求岗位匹配度最高,说明这些岗位最适合AI深度嵌入
• 服务、与人接触类岗位适配度低,社交智能成为制约关键
如客服、护理、运输等岗位虽然任务结构清晰,但GPT-4在社交兴趣、共情理解、自我效能等社交子维度能力明显不足,导致难以胜任这些高人际互动的工作。
• 智能匹配得分与“岗位准备难度”高度一致,验证方法有效性
研究发现,GPT-4的岗位暴露度与O*NET工作准备等级呈正相关(Job Zone系数显著),验证了该智能匹配方法不仅具备预测力,还可作为一套通用评估标准推广。
研究将人类的智能能力框架引入到职业分析中,结合23类典型工作,评估GPT-4是否“具备胜任这些岗位所需的智能”,结论发现,GPT-4 适配度最高的职业集中在:计算机、金融、法律、媒体等知识密集型岗位;而在服务类、生产制造、运输物流类岗位,GPT-4智能适配度偏低,原因是缺乏社交智能与情境感知。
发现三: 经济价值分布:高智能 ≠ 高价值,第三产业才是AI真正红利洼地
高智能不等于高价值:虽然GPT-4在多个知识密集型岗位上表现出高度智能匹配度,如科研、法律、金融分析、创意写作等第四产业典型岗位,模型在这些领域的认知与创造能力甚至远超人类平均水平,展现出强大的“岗位胜任力”。
然而,这些岗位本身存在两个天然限制:
• 岗位数量少,整体市场体量小:例如科研人员或专业法律顾问相对于行政或客服岗位,基数极小;
• 替代后边际收益有限:许多高认知岗位本身并非流程化操作,自动化潜力有限,模型能力虽强但使用频率或场景受限。
因此,这类高智能匹配岗位虽然“技术适配度”高,却在经济价值释放方面存在明显上限,难以支撑企业或社会层面的大规模投资回报。
第三产业成最大价值洼地:匹配中等但收益潜力最大. 相比之下,许多第三产业岗位(如销售、办公室助理、行政支持、客户运营等)虽然在智能匹配上并非最优,但由于具备以下两个优势,反而成为AI部署的首选目标领域:
• 岗位数量庞大,需求旺盛:这些岗位广泛存在于各行各业,构成服务业核心人力结构;
• 平均工资不低,替代后能显著降低人力成本:尤其在发达经济体,行政与销售岗位的薪资水平使得替代潜力具有极强吸引力。
模型虽在某些社交能力维度上仍存在短板(如共情、心理状态识别),但在大部分流程性、标准化沟通任务中已足以胜任。此类“中智能–高体量–高成本”的岗位组合,使得其在经济价值曲线上达到最高点。
未来政策制定和劳动力发展重点:深耕AI难替代的“人性化”技能
该研究同时为应对AI挑战指明方向——对政策制定和劳动力发展而言,劳动力培训应侧重于那些不易被大模型取代的人性化技能。自动化社交互动的复杂性,确保了在人工智能驱动的经济中,人类劳动者仍不可或缺。
发现四: 一个可以实际用的“AI职业智能评估系统”
该研究不仅提出了一个理论框架,更构建出一个可部署、可复用的智能评估系统。该框架支持以下两类企业决策:
• 纵向评估(Vertical Evaluation):衡量一个模型(如GPT-4)在多个岗位上的表现与价值
• 横向比较(Horizontal Comparison):企业可对比多种模型,选出最适配岗位需求的版本
例如:在“销售岗位”对比中,GPT-3.5与GPT-4显著优于GPT-3,但两者之间差距不大;提示对于情绪/社交智能要求较高的岗位,GPT-3.5已可达可用门槛,GPT-4的增量有限。
这一研究可谓恰逢其时。2025年《政府工作报告》提出,持续推进“人工智能+”行动,将数字技术与制造优势、市场优势更好结合起来,支持大模型广泛应用,大力发展智能网联新能源汽车、人工智能手机和电脑、智能机器人等新一代智能终端以及智能制造装备。与此同时,人工智能对劳动力市场的结构性冲击也日益引发关注。
孙天澍教授带领长江商学院数字化转型中心的研究团队围绕人工智能,商业重构与产业转型,开展了一系列学术研究、案例整理和实践调研,系统性梳理了企业人工智能大模型的商业设计与产业场景落地。
这篇学术论文不仅提出了一个以人类智能为基准全面评估大模型的整体智能的全新视角和框架,也通过多场景案例演示展示了其作为可复用的创新评估体系。对于企业决策者而言,这一框架可协助科学评估各岗位部署AI的风险与收益,制定“以人为本”的人机协同策略,精准投入资源,最大化AI的经济价值。在政策制定领域,该框架也为预测AI对劳动力市场的结构性影响、制定针对性再培训政策和产业发展规划提供了重要维度的依据与参考。
孙天澍教授简介
孙天澍教授现任长江商学院科技与运营终身教授、杰出院长讲席教授,企业家学者DBA项目学术主任,数字化转型中心主任,在南加州大学获得终身教职以及Robert Dockson讲席教授,同时兼任商学院与计算机系博士生导师。
孙天澍的研究跨界结合AI数字化技术设计与商业设计,聚焦在企业和产业的“AI业务架构”和“业务数字化转型”,特别是AI场景设计,AI业务重构,AI智能组织,AI人才体系,数据资产,信息系统,以及业务数字化战略。孙天澍在中美顶尖企业有丰富的工作经历与合作实践(如Facebook,Adobe等),并担任多家中国顶级企业的董事和资深顾问,数字化商业设计、数据科学方法和AI算法系统在多个行业的全链路场景落地。孙天澍近年的学术研究和产业实践尤其关注AI与商业的融合与重构—特别是AI大模型,AI智能体,大数据,云计算,物联网和具身智能如何持续的改变全渠道零售,快消,医药,金融,智能制造,餐饮生活和企业服务等行业。
孙天澍受邀在顶级大学(哈佛,MIT,沃顿商学院,芝加哥,斯坦福等)以及国际顶级学术会议上发表八十多场学术演讲,并在Facebook, Google, Snapchat, 领英, 优步, 阿里巴巴, 中信集团, 人民日报集团等顶级机构做AI大模型,数字化转型,数据资产和平台战略的邀请分享和培训。
孙天澍的研究论文发表在信息系统,机器学习,运筹优化,经济学和商学院国际顶级期刊与会议,获得16项最佳论文奖(包括芝加哥大学颁发的Wittink Prize年度最佳论文奖),以及南加州大学颁发的年度最佳教授奖(Golden Apple Award)。
孙天澍教授担任多个国际顶级期刊常务和客座编委(MS, ISR, MISQ, MSOM)和国际会议大会联席主席(CIST,WEBEIS),并获得多个顶级机构的研究支持,指导的博士学生在UIUC、Queens、ASU、SCU等学校担任教职,培养的研究助理和研究生在MIT、沃顿商学院、康奈尔、明尼苏达、香港科技大学等攻读博士。
孙天澍本科毕业于南京大学物理系,在马里兰大学修读物理,电子工程与经济学博士课程,获得信息系统博士学位。
自创校起,长江商学院凭借“学术研究立校”“教授治学”等一系列机制创新,吸引汇聚了一批在世界管理学术界享有盛誉的学者全职加入长江。学院为教授提供了较为成熟的、具有一定全球竞争力的学术研究平台及生态体系,使得教授能在加入长江后仍然能持续开展前沿性、引领性的研究,不断产生世界级的研究成果,获得全球学术界的广泛认可。
2024年,长江商学院教授在UTD24商学院顶级期刊上的人均发表量位列中国大陆院校第一,充分彰显了学院的学术实力和国际影响力。
来源:Information Systems Research
长江学术
透视货币政策“稳预期”效果,长江商学院中国产业经济景气指数(BSI)成果登上顶刊《经济研究》
揭示银行估值和风险管理背后的存款逻辑 王能教授论文在国际金融学顶刊 Journal of Finance 发表
来源:长江商学院