当我使用 nvidia-smi
时,我发现某处缺少近 20GB 的 GPU 内存(列出的总进程占用 17745MB,同时内存使用量为 37739MB):
然后我用nvitop
,可以看到No Such Process
居然占用了我的GPU资源。但是,我无法杀死这个 PID:
>>> sudo kill -9 118238
kill: (118238): No such process
如何在不打扰其他人的情况下摆脱这个幽灵进程?
最佳答案
我在这个答案中找到了解决方案:https://stackoverflow.com/a/59431785/6563277 .
首先,我运行 sudo fuser -v /dev/nvidia*
查看所有进程都在使用我的 GPU RAM nvidia-smi
显示失败。
然后,我看到了一些“幽灵”Python 进程。杀死它后,GPU RAM 就释放了。
https://stackoverflow.com/questions/71433347/