大模型科学前沿导读

B站影视 韩国电影 2025-09-22 11:05 1

摘要:中国计算机学会人工智能专委会匠心出品《大模型十讲》,系统梳理和总结计算机视觉的前沿研究,帮助不同层次、不同方向的学者、学生和专业技术人员全面了解相关方向,以便快速进入研究和研发工作。

中国计算机学会人工智能专委会匠心出品《大模型十讲》,系统梳理和总结计算机视觉的前沿研究,帮助不同层次、不同方向的学者、学生和专业技术人员全面了解相关方向,以便快速进入研究和研发工作。

重磅新书推荐

大模型是一类基于深度学习的人工智能模型,通过在海量数据上进行预训练,提前学习通用知识和模式,典型进展包括GPT、Stable Diffusion、Sora等。大模型是人工智能领域颠覆式的新范式,其通用性、泛化性和推理能力均有显著地突破。需要指出的是,它的能力不仅体现在聊天和数据生成方面,实际上它代表了人工智能能力的重要进步:从过去的泛化能力较弱、鲁棒性不足、仅能解决特定领域任务的模型,逐渐迈向高通用性、强泛化性和开放环境适应能力的强人工智能阶段。这种转变使得大模型在自然语言处理、计算机视觉、机器人控制等多个领域取得显著成果。它不仅推动了人工智能技术的发展,更重要的是迅速拓展其在各行各业的应用前景,进而带来生产力和生产效率的巨大飞跃和变迁,从而引发新一轮的技术和产业革命。

一、大模型知识体系

近年来,大模型的研究取得了突破性进展,因此,有必要对该领域的前沿研究进行梳理和总结,帮助不同层次、不同方向的学者、学生和专业技术人员全面了解相关方向,以便快速进入研究和研发工作。

中国计算机学会人工智能与模式识别专委遴选大模型领域的10个基础和前沿研究方向,进行系统梳理和总结,组编成《大模型十讲》一书。该书每一部分内容相对保持独立,自成体系,突出前沿热点和应用。内容聚焦前沿算法理论,从理论基础、预训练基础、扩展与前沿应用三个方面分别讲述了生成模型、强化学习、大语言模型、多模态大模型等大模型领域的研究重点,也对大模型的基本概念和大模型科学研究的预备知识进行了简要介绍,帮助读者在构建完整的大模型知识框架的同时,打下较为坚实的基础,为进一步在该领域提出新设想、开发新算法、解决新问题创造良好的条件。

图 1 本书的组织架构

二、本书内容结构

第一部分总览全书,介绍大模型的发展历程。

(1)第1讲绪论从计算能力和通用方法的视角回顾了人工智能历史和大模型的起源,简要介绍了大模型的特点、原理与技术,并详细阐述了后续章节之间的安排逻辑和内在联系,最后展望了大模型的发展。

第二部分重点阐述大模型基础理论,介绍生成模型、自监督学习和强化学习的主要思想和典型方法。

(2)第2讲围绕表示、学习和推断三个基本问题,介绍了自回归模型、变分自编码器、扩散模型和生成对抗网络的基本原理。

(3)第3讲以自监督任务的构建为线索,介绍了自我预测和对比学习两大类方法。

(4)第4讲以决策为核心,系统介绍了的强化学习基础概念和理论,以及时序差分学习、值函数学习、模型无关控制方法、策略梯度等主要方法。

第2~4讲涵盖了各类大模型各个训练阶段涉及的理论基础和学习准则。

图2 基础理论对预训练技术的支撑作用

第三部分详细介绍大模型训练技术。

(5)第5讲介绍了大模型预训练基础,包括如何选取预训练任务、网络结构和适配方式等,为后续三讲内容提供技术基础。

(6)第6讲介绍了大语言模型的预训练、指令调优以及对齐调优技术。

(7)第7讲以图文为例,介绍了多模态对齐、文到图生成模型和多模态生成与对话模型三类多模态大模型训练技术。

(8)第8讲介绍了决策任务的序列化和网络结构设计等决策大模型的训练技术以及如何将语言或者多模态大模型用于决策模型,提高决策任务的性能。

图3 预训练技术的内部关系和对重要应用的支撑

第四部分介绍大模型的扩展技术和典型下游任务。

(9)第9讲介绍了大语言模型的微调、轻量化微调和提示学习等适配技术,并探讨了如何基于其构建自主智能体。

(10)第10讲围绕构建可控可交互、动态、真实的物理世界模型展开,介绍如何控制文到图生成模型样本的语义,和如何完成文到视频、文到三维内容生成等任务。

目录

目录

前言 III

第 1 章 绪论 3

1.1 大模型的起源 5

1.1.1 大模型前的人工智能历史 5

1.1.2 大模型的起源 7

1.1.3 大模型的特点 9

1.2 大模型的理论基础、技术与前沿应用 11

1.2.1 大模型理论基础 12

1.2.2 大模型训练技术 15

1.2.3 大模型训练技术 16

1.2.4 大模型扩展与前沿应用 19

1.3 大模型的发展展望 20

1.3.1 大模型应用前景 20

1.3.2 大模型未来研究方向 21

参考文献 24

第 2 章 生成模型 27

2.1 生成模型概述 29

2.1.1 三个基本问题 30

2.1.2 深度生成模型 32

2.2 自回归模型 33

2.2.1 自回归模型的表示 33

2.2.2 自回归模型的学习 35

2.2.3 自回归模型的推断 36

2.3 变分自编码器 37

2.3.1 变分自编码器的表示 37

2.3.2 变分自编码器的学习 39

2.3.3 变分自编码器的推断 42

2.4 扩散概率模型 42

2.4.1 扩散概率模型的表示 42

2.4.2 扩散概率模型的学习 44

2.4.3 扩散概率模型的推断 46

2.5 生成对抗网络 48

2.5.1 生成对抗网络的表示 48

2.5.2 生成对抗网络的学习 49

2.5.3 生成对抗网络的推断 50

2.6 本讲小结 50

2.7 延伸阅读 51

2.8 课后习题 52

参考文献 53

第 3 章 自监督学习 57

3.1 自监督模型概述 58

3.1.1 自监督学习的由来 59

3.1.2 两个基本问题 61

3.2 自我预测 63

3.2.1 自编码器 64

3.2.2 掩码预测 70

3.2.3 其他自我预测的方法 77

3.3 对比学习 79

3.3.1 噪声对比估计基本原理 79

3.3.2 对比预测编码 81

3.3.3 对比检索器 83

3.4 本讲小结 87

3.5 延伸阅读 87

3.6 课后习题 87

参考文献 89

第 4 章 强化学习 91

4.1 决策式人工智能 93

4.1.1 预测、生成与决策 93

4.1.2 决策式任务分类 93

4.1.3 序贯决策 94

4.2 强化学习基本概念 95

4.2.1 什么是强化学习 95

4.2.2 强化学习的环境建模:马尔可夫决策过程 96

4.2.3 智能体策略、价值与优化目标 98

4.2.4 强化学习中的数据分布 98

4.2.5 探索与利用 100

4.3 表格式强化学习 100

4.3.1 动态规划方法 101

4.3.2 无模型的强化学习方法 102

4.4 基于参数化函数的近似方法 104

4.4.1 参数化的价值函数 105

4.4.2 参数化的策略 105

4.4.3 Actor-Critic 方法 106

4.5 深度强化学习 108

4.5.1 深度学习和强化学习的结合 108

4.5.2 深度价值函数 109

4.5.3 深度策略方法 110

4.6 延伸阅读 112

4.6.1 强化学习的启示 112

4.6.2 强化学习技术落地挑战 113

4.7 课后习题 114

参考文献 116

第 5 章 预训练模型基础 119

5.1 预训练模型概述 121

5.2 模型架构 122

5.2.1 简单神经网络 122

5.2.2 循环神经网络 123

5.2.3 Transformer 125

5.3 预训练任务 134

5.3.1 语言模型类任务 134

5.3.2 对比学习类任务 138

5.4 典型预训练模型 139

5.4.1 Word2vec 139

5.4.2 ELMo 141

5.4.3 BERT 142

5.4.4 GPT 143

5.4.5 T5 144

5.5 本讲小结 145

5.6 延伸阅读 146

5.7 课后习题 146

参考文献 148

第 6 章 大语言模型 153

6.1 大语言模型概述 155

6.2 大语言模型的动机 155

6.2.1 扩展定律 156

6.2.2 能力涌现 157

6.3 大语言模型的调优 158

6.3.1 指令调优 158

6.3.2 对齐调优 161

6.4 典型大语言模型 167

6.5 大语言模型的问题 169

6.5.1 幻觉 170

6.5.2 安全 175

6.5.3 其他问题 179

6.6 本讲小结 181

6.7 延伸阅读 181

6.8 课后习题 182

参考文献 184

第 7 章 多模态大模型 201

7.1 图文对齐模型 203

7.1.1 双流模型 203

7.1.2 单流模型 207

7.1.3 混合模型 209

7.2 文到图生成模型 212

7.2.1 基于生成对抗网络架构的方法 212

7.2.2 基于 Transformer 架构的方法 215

7.2.3 基于扩散模型架构的方法 217

7.3 多模态生成与对话模型 220

7.3.1 多模态信息理解 220

7.3.2 多模态内容生成 225

7.4 本讲小结 227

7.5 延伸阅读 227

7.6 课后习题 228

参考文献 229

第 8 章 决策大模型 233

8.1 决策任务与大模型 234

8.1.1 基于 Transformer 架构的强化学习 235

8.1.2 决策任务的知识模态 236

8.1.3 面向大模型的决策任务学习范式 237

8.2 决策策略的表示学习 239

8.2.1 决策序列数据的离散化 239

8.2.2 状态-动作的表示学习 241

8.2.3 奖励的表示学习 243

8.3 策略学习 246

8.3.1 离线策略学习 247

8.3.2 在线策略学习 247

8.3.3 多智能体策略学习 248

8.4 预训练大模型与强化学习 249

8.4.1 大模型辅助的层次化任务分解 249

8.4.2 工具使用的策略优化 249

8.4.3 基于强化反馈的大模型推理增强 250

8.5 本章小结 251

8.6 延伸阅读 251

8.7 课后习题 254

参考文献 255

第 9 章 大语言模型的适配技术与自主智能体 259

9.1 参数微调 261

9.1.1 全参数微调 261

9.1.2 高效参数微调 262

9.2 提示学习 270

9.2.1 任务指令设计 271

9.2.2 任务映射方式设计 273

9.2.3 思维链推理提示 274

9.3 大模型自主智能体与工具学习 277

9.3.1 大模型自主智能体构建 278

9.3.2 大模型自主智能体应用 287

9.4 本讲小结 290

9.5 延伸阅读 291

9.6 课后习题 291

参考文献 293

第 10 章 多模态大模型的扩展与世界模拟器 301

10.1 图像可控生成与编辑 303

10.1.1 图到图翻译 303

10.1.2 个性化生成 308

10.1.3 引入额外控制条件 310

10.1.4 交互式拖拽生成 312

10.2 文本到视频生成 314

10.2.1 基于文到图模型的视频生成与编辑 314

10.2.2 文到视频基础模型 317

10.3 文本到三维内容生成 321

10.3.1 三维内容的表示与渲染 322

10.3.2 基于文到图模型的零样本三维内容生成 323

10.3.3 基于文到图模型的多视图生成 327

10.3.4 文到三维内容的基础模型 328

10.4 本讲小结 331

10.5 延伸阅读 331

10.6 课后习题 331

参考文献 333

三、本书特色

权威性:汇聚多位大模型领域资深研究人员的真知灼见

前沿性:着眼于前沿技术,系统介绍了大模型领域的前沿理论和关键技术

创新性:具有创新性的内容结构,拆分大模型领域的前沿内容,帮助广大读者把握学科全局

全面性:从十个方向全面和系统地介绍了大模型领域的热点和应用

本书电子资源

四、适读人群

本书适合作为高等院校面向计算机、人工智能等相关专业高年级本科生、研究生的大模型相关课程教材,适合专业选修课、研讨导论课等,也可以作为相关专业必修课的延伸阅读材料与参考书。此外,本书也可作为人工智能领域相关从业技术人员作为工具参考书阅读。

本书着重阐述大模型相关基础原理与技术,建议先修线性代数、高等数学、概率统计、机器学习以及深度学习相关课程。

建议学生系统化修读第1~5讲,建立起对大模型领域全面的了解,并深入掌握相关基本原理和预训练基础技术。进而可以根据授课需要节选第6~10讲内容。除了按照本书顺序外,还可以按照模型类型编排授课顺序。

五、编写团队

李崇轩

中国人民大学高瓴人工智能学院副教授,博士生导师,主要研究领域为生成模型,研制 LLaDA系列扩散大语言模型,视觉扩散模型成果部署于DALL·E 2、Stable Diffusion、Vidu等行业领先模型。获ICLR 2022 杰出论文奖、吴文俊优秀青年奖、北京市科技新星、吴文俊人工智能自然科学一等奖等,主持国家自然基金重大研究计划培育项目等,长期担任IEEE TPAMI 编委和ICLR、NeurIPS等会议的领域主席。

张伟楠

上海交通大学计算机学院教授、博士生导师,研究领域包括强化学习、智能体技术、具身智能等,发表CCF-A类国际会议和期刊100余篇学术论文,谷歌学术引用2万余次,爱思唯尔中国高被引学者,出版专业教材2本。张伟楠长期担任NeurIPS、ICML、ICLR等会议的领域主席和TPAMI等期刊的编委,作为负责人承担国自然优青项目和科技部重大项目课题,获得吴文俊优青奖和达摩院青橙奖。

杨成

北京邮电大学副教授,博士生导师,长期从事数据挖掘和自然语言处理相关方向的研究,发表相关领域CCF A类论文40余篇,谷歌学术被引1万余次,相关成果获2020年教育部自然科学奖一等奖(排名第四)等省部级奖励。获中文信息学会优秀博士论文奖、中国人工智能学会吴文俊青年科技奖,入选中国科协“青年人才托举工程”,连续三年入选斯坦福大学发布的全球前2%顶尖科学家榜单。

六、专家推荐

大模型是人工智能发展过程中的一个重大突破,将促使人工智能以前所未有的深度、广度和速度进入我们的生产和生活。《大模型十讲》包括基础理论与技术,发展历程与现状,以及未来的发展方向等内容。从深度上看,从理论、技术(算法)直到前沿应用都有深入的分析。从广度上看,包括不同的模型,不同的学习方法以及多模态等。内容全面且深刻,可以作为高等院校相关专业本科生、研究生的课程教材或选修课教材,也可以作为人工智能领域相关从业技术人员的参考书。

——中国科学院院士、清华大学计算机系教授 张钹

大模型技术是当前人工智能领域的重要发展方向。《大模型十讲》从大模型的基本原理出发,涵盖生成模型、自监督学习、强化学习等核心理论,逐步深入预训练、对齐调优等关键技术,并深入介绍大语言模型、视频生成模型等典型进展。全书结构清晰,内容详实,不仅适合作为高年级本科生和研究生学习人工智能前沿技术的参考教材,也对相关领域研究人员和技术从业者了解大模型技术动态、探索其广泛应用具有重要价值。

——中国人民大学高瓴人工智能学院执行院长、长聘教授 文继荣

生成式大模型近期取得巨大突破,代表了人工智能的一个新范式,意义重大。本书涵盖了大模型的基础理论、关键技术以及前沿应用,内容丰富、结构合理,内容描述深入浅出,是了解和掌握大模型的优秀参考书。

——清华大学人工智能研究院副院长、计算机系博世AI教授 朱军

来源:CCFvoice

相关推荐