誉天AI系统运维实战课程

B站影视 欧美电影 2025-03-26 11:26 2

摘要:核心内容介绍:本阶段课程将采用通俗易懂的方式介绍 AI人工智能技术从传统 AI小模型技术领域到 AI大模型的通识性知识,辅助学员理解 AI 技术的基本原理、技术分类、应用场景、落地实操。

第一阶段 -大模型通识技术全面掌握:大模型通识技术原理-(2天,12 课时)

核心内容介绍:本阶段课程将采用通俗易懂的方式介绍 AI人工智能技术从传统 AI小模型技术领域到 AI大模型的通识性知识,辅助学员理解 AI 技术的基本原理、技术分类、应用场景、落地实操。

章节一:AI技术发展史与AI人工智能通识理论详解-(0.5 天,3课时)

什么是人工智能: AI、机器学习、深度学习的关系;人工智能主要学派;人工智能发展简史;人工智能分类;AI产业生态建设;AI技术领域和应用领域概览;AI落地应用场景;华为全栈全场景 AI解决方案;华为云 ModelArts 简介;

机器学习与传统基于规则的方法区别;机器学习算法的理性知识;机器学习主要解决的问题;机器学习分类;监督学习-分类问题;监督学习-回归问题;无监督学习-聚类问题;

机器学习与深度学习的关系;什么是神经网络;神经网络发展历史;早期单层感知机;多层感知机;深度神经网络;

什么是局部感受野;什么是卷积神经网络;卷积神经网络的应用领域;CV视觉技术主要应用场景;CV 视觉领域常用开源三方算法库;CNN 卷积神经网络技术发展历史;

什么是自然语言;什么是序列模型;什么是序列数据;什么是 RNN 循环神经网络;循环神经网络发展历史;NLP 典型应用场景:文本分类、机器翻译、文本蕴含、广告检测、情感分析、文本生成;

章节二:大语言模型技术发展史与大语言模型通识理论基础-(0.5天,3课时)

AI 应用发展简史;AI产业周边生态技术栈;传统 AI小模型技术领域遇到的技术瓶颈问题;大模型基础概念;什么是大模型;大模型分类;大语言模型;视频生成大模型;多态大型;MOE 混合专家模型;国内外开闭源主流大模型产品介绍;

什么是大模型预训练;预训练语料库数据如何收集;预训练语料库数据如何清洗;大模型预训练基本学习范式;

什么是大模型微调训练;什么是全参微调;什么是低参微调;

大模型 Transformer 架构的优势和劣势;大模型预训练、微调训练调优方法;

为什么算力集群对大模型训练非常重要;算力集群要解决大模型训推过程中的什么问题;为什么大模型算力集群下的运维工作相对于传统服务器运维难度较大;

章节三:DeepSeekV3/R1介绍与本地化推理部署-(1天,6课时)

DeepSeek V3 简介;V3 基础模型相比V2.5 的改进与迭代;

Modelarts Stuido DeepSeek R1 昇腾适配满血版 AP| 服务使用方法;

基于华为云 GPU 服务器+Modelarts Studio 结合 Ollama+Open WebUl 部署本地私有化DeepSeek R1 Distil Qwen-32B 问答模型,并外挂行业知识库定制开发 Al Agent 智能体应用;

第二阶段:AI 算力集群运维技术栈精讲(8天,48 课时)

章节一:AI算力集群运维整体技术架构概述:-(1.5天,9课时)

AI 系统运维整体架构概述;模型概念:模型参数、模型大小、模型 token、模型量化与蒸馏;

显卡管理;Nvidia 主流显卡如 H100、A100、4090 等介绍;华为昇腾计算 NPU 介绍;昇腾计算全栈软硬件解决方案介绍;异腾算力中心解决方案介绍;

训练服务器硬件架构介绍;nvidia 显卡驱动管理;nvidia 桥接器管理;

章节二:数据集管理与存储加速方案(1天,6课时)

数据集概念;什么是训练数据集;什么是验证数据集;什么是测试数据集;数据集的收集整理、打标;

数据集版本控制工具 git 简介;git lfs 基本使用;

基于 dvc 的数据集版本控制;dvc 部署;dvc基本使用;

基于 s3 的数据集存储;基于 fluid 的数据集缓存加速;fluid 的资源对象详解;fluid 缓存配置实战;alluxio 详解;

章节三:模型训推作业任务运维管理方案-(2.5 天,15 课时)

基于 kubernetes 的模型训练调度系统;开源调度器 volcano 概念;volcano 部署实战;volcano 的主流调度算法;volcano 资源对象详解;volcano 实战指南;

主流AI训练框架介绍;PyTorch简介;Tensorflow简介;华为 MindSpore 简介;百度飞桨简介;cuda版 PyTorch 介绍;cuda驱动安装;cuda版 PyTorch Ubuntu 本地化安装;CANN(昇腾适配版)PyTorch-NPU介绍;CANN驱动安装;PyTorch-NPU Ubuntu本地化安装;

单机训练与分布式训练的核心区别;基于 operator部署训练框架;arena 客户端简介;arena部署实战;arena启动一个单机训练;arena启动一个分布式训练;

章节四:模型管理、推理服务与 MLOPS-(3天,18 课时)

模型仓库简介;模型仓库部署;模型的版本管理;模型的基本增删改查操作;推理服务;推理概念详解;主流的推理框架;vlm;ollama;

kubernetes 上的推理服务 kserve;kserve 部署;kserve 基本使用;

基于 fluid 实现模型加速; arena 管理推理服务;arena 创建一个kserve 的推理服务; arena创建一个自定义的推理服务;

分布式推理详解;deepseek单机推理部署实战;deepseek分布式推理部署实战;开源对话前端 open-webui 部署详解;

RAG 简介;dify 部署与基本使用;

MLOPS 概念;关键组件详解;如何实现一个 MLOPS;主流开源 MLOPS 平台介绍;mlflow开源平台;工作原理;组件介绍;kubeflow开源平台工作原理;组件介绍;部署;基本使用;

来源:武汉誉天

相关推荐