20230321配置CUDA和cuDNN

目标:在Ubuntu 18.04配置CUDA 11.3 和 cuDNN 8.8.0

环境说明:容器内已配置显卡驱动+torch-gpu版

  1. 检查容器发现没有安装CUDA工具包:nvcc -V
  2. 检查当前显卡驱动信息及其支持的最高CUDA版本:nvidia-smi
  3. 安装CUDA:
  • nVidia官网下载对应版本的CUDA
  • 选择runfile(local)版本后,官网会直接给出了安装指令
wget https://developer.download.nvidia.com/compute/cuda/11.3.0/local_installers/cuda_11.3.0_465.19.01_linux.run
su cuda_11.3.0_465.19.01_linux.run # 执行安装操作
  • 输入accept同意协议并开始安装,在可选安装中去除显卡驱动(已安装)
  • 根据安装成功后的提示信息,添加环境
# vi /etc/profile
export PATH=/usr/local/cuda-11.3/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-11.3/lib64$LD_LIBRARY_PATH
  • 添加成功后,执行source /etc/profile更新配置
  • 检查CUDA是否安装成功:nvcc -V
  1. 安装cuDNN:
  • 官网选择CUDA版本对应的合适cuDNN并下载
  • 解压并拷贝文件到/usr/local/cuda-11.3
tar -xvf cudnn-linux-x86_64-8.8.0.121_cuda11-archive.tar.xz
cd cudnn-linux-x86_64-8.8.0.121_cuda11-archive
cp lib/* /usr/local/cuda-11.3/lib64/
cp include/* /usr/local/cuda-11.3/include/
chmod a+r /usr/local/cuda-11.3/lib64/*
chmod a+r /usr/local/cuda-11.3/include/*

参考:Linux 安装CUDA 11.2 和 cuDNN 8.4.0并检查是否安装成功

重装显卡驱动后cuda确定安装正常,但是执行命令torch.cuda.is_available()后会报错:python UserWarning: CUDA initialization: CUDA unknown error

解决方案 1: apt-get install nvidia-modprobe sudo modprobe -r nvidia_uvm && sudo modprobe nvidia_uvm

错误分析:避免重新启动整个计算机来解决驱动程序问题的解决方法

解决方案 2: sudo apt-mark hold linux-generic linux-image-generic linux-headers-generic sudo apt-mark hold nvidia-driver-535

错误分析:禁用系统内核的自动更新,来规避此类问题的重复出现

往年同期文章