目标:在Ubuntu 18.04配置CUDA 11.3 和 cuDNN 8.8.0
环境说明:容器内已配置显卡驱动+torch-gpu版
- 检查容器发现没有安装CUDA工具包:
nvcc -V
- 检查当前显卡驱动信息及其支持的最高CUDA版本:
nvidia-smi
- 安装CUDA:
- 从nVidia官网下载对应版本的CUDA
- 选择
runfile(local)
版本后,官网会直接给出了安装指令
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
su cuda_11.3.0_465.19.01_linux.run # 执行安装操作
- 输入
accept
同意协议并开始安装,在可选安装中去除显卡驱动(已安装) - 根据安装成功后的提示信息,添加环境
# vi /etc/profile
export PATH=/usr/local/cuda-11.3/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64$LD_LIBRARY_PATH
- 添加成功后,执行
source /etc/profile
更新配置 - 检查CUDA是否安装成功:
nvcc -V
- 安装cuDNN:
- 在官网选择CUDA版本对应的合适cuDNN并下载
- 解压并拷贝文件到
/usr/local/cuda-11.3
tar -xvf cudnn-linux-x86_64-8.8.0.121_cuda11-archive.tar.xz
cd cudnn-linux-x86_64-8.8.0.121_cuda11-archive
cp lib/* /usr/local/cuda-11.3/lib64/
cp include/* /usr/local/cuda-11.3/include/
chmod a+r /usr/local/cuda-11.3/lib64/*
chmod a+r /usr/local/cuda-11.3/include/*
参考:Linux 安装CUDA 11.2 和 cuDNN 8.4.0并检查是否安装成功
重装显卡驱动后cuda确定安装正常,但是执行命令
torch.cuda.is_available()
后会报错:python UserWarning: CUDA initialization: CUDA unknown error
解决方案 1:
apt-get install nvidia-modprobe
sudo modprobe -r nvidia_uvm && sudo modprobe nvidia_uvm
错误分析:避免重新启动整个计算机来解决驱动程序问题的解决方法
解决方案 2:
sudo apt-mark hold linux-generic linux-image-generic linux-headers-generic
sudo apt-mark hold nvidia-driver-535
错误分析:禁用系统内核的自动更新,来规避此类问题的重复出现