近期在跑模型时发现代码忽然停止运行,也没抛出异常或退出。重启服务器后,发现nvidia-smi
命令会报错。
NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver.
解决方案:
ls /usr/src | grep nvidia
这里我的驱动版本为 nvidia-510.73.05sudo apt-get install dkms
sudo dkms install -m nvidia -v 510.73.05
安装完成即恢复正常。
还可使用nvidia-smi -pm 1
进行该命令的加速。
版权声明:本文为tobefans原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。