近期在跑模型时发现代码忽然停止运行,也没抛出异常或退出。重启服务器后,发现nvidia-smi命令会报错。

NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.

解决方案:

  1. ls /usr/src | grep nvidia
    这里我的驱动版本为 nvidia-510.73.05
  2. sudo apt-get install dkms
  3. sudo dkms install -m nvidia -v 510.73.05

安装完成即恢复正常。
还可使用nvidia-smi -pm 1进行该命令的加速。


版权声明:本文为tobefans原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/tobefans/article/details/127510588