摘要:对于需要进行AI项目的同学,是不是经常艰难寻找支持各种版本的驱动,找到驱动又苦于各种不兼容。
对于需要进行AI项目的同学,是不是经常艰难寻找支持各种版本的驱动,找到驱动又苦于各种不兼容。
现在,由于云计算技术的飞速发展,云GPU服务器已经解决了这种问题。让我们专心训练我们的大模型。
▉ 01.云GPU服务器?
何为云GPU服务器?
云GPU服务器,即基于云计算技术提供的,配备有图形处理器(GPU)的虚拟或物理服务器。
借用于云厂商的强大的资本力,我们可以免去购买GPU的高额成本,但也依然能够使用像A100的计算能力强,但颇为昂贵的GPU。就相当于我们只花了一杯奶茶钱,却享受到了五星级酒店餐厅待遇。
▉ 02.为什么要用GPU云服务器?
1、高性能计算:
GPU擅长并行处理,能够显著加速深度学习、机器学习和科学计算等任务,缩短模型训练和推理时间。
2、成本效益:
按需付费模式避免了前期高昂的硬件投资,同时可以根据需求动态调整资源,灵活应对工作负载变化。
3、灵活性和可访问性:
通过互联网随时随地访问,方便团队协作和远程工作,同时提供多种GPU配置选项,满足不同需求。
4、易于管理和维护:
提供自动化的管理和维护工具,如自动备份、监控和故障恢复,确保服务的高可用性和容错性
▉ 03. 如何使用云GPU服务器?
现在,我们就用我们的神器
使用阿里云GPU云服务加速您的AI项目!
在这里,我选择的云GPU服务器是阿里云GPU服务器,阿里云GPU背靠阿里,有丰富的云计算资源,网络连接也相当稳定,遇到服务器上面的问题都有相应的文档和团队帮你解决,最重要的是基本所有的细节都给你写好了,跟着做,都能做好。
1、基础准备
同学们可以根据自己的项目需求选择相应的配置
我自己的项目是选择NVIDIA T4 ,在阿里云这里都是随开随用
操作系统我们选择Ubuntu最新的版本
网络的带宽我选择固定带宽。
其他的都选择默认配置
在购买的时候我们要保证账户里的钱不少于100哦
在创建好之后我们需要添加一个安全组,让我们本地能连接服务器
将自己公网ip添加上去,不知道公网ip的可以在百度上搜索ip地址,第一个出来的就是
对自己的ip开放端口就行,其他的全部关掉
然后将自己云服务器添加到安全组
2、 配置环境
阿里云在这里给了我们文档支持,十分详细,这就是大厂的细致!
右键复制"GPU云服务器(EGS)-阿里云帮助中心"网址:
由于有些同学可能选择的是低配或者其他系统 这里就有多种安装方式,在这里我用GPU计算型实例linux系统为例
点击这个连接,接下来我们跟着文档一步一步的操作
2.1Tesla安装
输入对应的驱动与系统版本号
点击查找,然后再点击查看,最后复制下载链接,注意是复制链接不是直接下载
静待下载就好了
下载之后授权脚本 后面文件名替换为下载的文件名称哦
官方下载的是deb文件
dpkg-i nvidia-driver-local-repo-ubuntu2404-550.127.08_1.0-1_amd64.deb
复制密钥
密钥命令在上一个命令的最后一行
cp /var/nvidia-driver-local-repo-ubuntu2004-560.35.03/nvidia-driver-local-63C60622-keyring.gpg /usr/share/keyrings/
再次执行
dpkg -i nvidia-driver-local-repo-ubuntu2404-550.127.08_1.0-1_amd64.deb
修复依赖关系(如果没有问题忽略)
apt-get install -f
更新包列表
apt-get update
查看驱动是否存在
apt-cache search nvidia-driver-550(注意是你的驱动版本号哦 看你下载文件的名称)
安装驱动
apt-get install nvidia-driver-550
耐心等待安装
验证安装
nvidia-smi
这里的CUDA注意最高支持的版本哦,后面要用到!
恭喜你跨过了第一步难关
2.2CUDA安装
接下来我们安装CUDA
官方文档:"手动安装CUDA_GPU云服务器(EGS)-阿里云帮助中心"
https://help.aliyun.com/zh/egs/user-guide/install-cuda?spm=a2c4g.11186623.help-menu-155040.d_1_6.66393222O41Yb4&scm=20140722.H_2716280._.OR_help-T_cn#DAS%23zh-V_1
我们安装以前要知道我们的pytorch所需要的版本哦 在官方文档里寻找
这里推荐一个博主的文章
"一文理顺:pytorch、cuda版本,从此不再为兼容问题头疼!- 哔哩哔哩"
找到版本后我们在"CUDA Toolkit Archive | NVIDIA Developer"下载驱动哦
粘贴两条命令开始
wget https://developer.download.nvidia.com/compute/cuda/12.1.1/local_installers/cuda_12.1.1_530.30.02_linux.run
Chmod +x 文件名(下载的文件名,进行授权)
sh cuda_12.1.1_530.30.02_linux.run
到"continue"回车
然后输入"accept"
将driver上面的x去掉 按回车即可 然后到install回车
重启
reboot
添加到系统环境里面
echo 'export PATH=/usr/local/cuda/bin:$PATH' | sudo tee /etc/profile.d/cuda.sh
source /etc/profile
测试是否成功
nvcc -V
2.3 conda安装
直接复制命令下载
wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
授权
chmod +x Miniconda3-latest-Linux-x86_64.sh
运行
sh Miniconda3-latest-Linux-x86_64.sh
通过方向键直达下方输入"ENTER",然后根据提示出入
回车安装在默认路径 或者输入自定义路径然后回车
输入"yes"
激活环境
source ~/.bashrc
2.4 创建python环境
conda create -n 环境名称 python=3.10conda activate 环境名称
2.5 安装框架
访问 "PyTorch"官网 获取安装命令,为了兼容性避免出错,可以进到早前版本
我选择的是2.0.1版本复制安装命令
conda install pytorch==2.0.1torchvision==0.15.2 torchaudio==2.0.2 pytorch-cuda=11.8 -c pytorch -c nvidia
import torchprint(torch.cuda.is_available)print(torch.cuda.device_count)
安装成功
2.6测速
我们就用一个视频转码给测个速,我上传的是66MB大小的视频,四秒钟就好了!
ffmpeg -hwaccel cuda -i input.mp4 -c:vh264_nvenc -preset fast output.avi
watch -n 1 nvidia-smi
3.使用阿里云GPU云服务加速你的AI项目
作为阿里云8年资深老用户,阿里云这块从ECS、域名、CDN....我都用过,可以说阿里云的服务非常好,有什么问题都可以很快解决,而且不管是新老用户都提供了十足的优惠,新用户有入门级产品免费试用,老用户不仅价格越用越优惠,参与定期活动还能实现折上折的。
▉ 04.我总结的阿里GPU云服务器主要优势:
首先第一个 便捷
对于很多同学不熟悉硬件的同学,显卡相关的配置还是十分苦恼,经常要通过BIOS去配置驱动,安装好驱动之后又是各种的不适配,感觉花了冤枉钱,但是采用云GPU服务器,我们便把这些困难都丢给云服务商,让他们去烦恼。我们只需要专注于我们的大模型就好了
第二个 舒适
没错,云GPU服务器就是用的舒适,采用本地硬件,又是高性能的,就好像停留在飞机场,噪声十分烦人。夏天,就像旁边是个暖光灯,热的直流汗水。采用GPU云服务器,这些脏活累活都丢给服务商。我们只需要像用空调一样,自己按一下遥控器就好了。
第三个 升级快,还便宜
现在大模型AI项目发展的越来越快,所需要的算力越来越吓人,淘汰率高的可怕,我们买一个显卡,过一年多就得升级,他还是个电老虎,功率高的可怕。就好像我们不光每次交使用费,还要隔一段时间交场地费。采用云GPU服务器就不会,我们升级只需要更换配置,数据那些存在快照里,一次性迁移过去就好了啥都不用管,而且我们只需要每次用的时候交钱就行。不用的时候关机存个快照备份就行了,下次还能接着用,而且价格还不贵。
大家可以通过右键复制这个链接:
"https://www.aliyun.com/product/ecs/gpu?source=5176.29345612&userCode=9j4ha22f"
或点击“阅读原文”来了解更多阿里云GPU云服务器相关信息。对于定制解决方案、更大的GPU分配或预留实例,请联系阿里云的专业销售团队,了解阿里云是如何为您最苛刻的AI/ML工作负载提供动力。
来源:了不起的云计算