로딩
요청 처리 중입니다...

(pytorch) NCCL Error 2: unhandled system error

 (pytorch) NCCL Error 2: unhandled system error

문제 NCCL Error 2: unhandled system error 이 에러는 보통 docker container 내부에서 일어나는 문제이며 특히 multi GPU를 사용하는 리눅스 환경에서 자주 발생한다. model = BertForSequenceClassification.from_pretrained(MODEL_NAME) torch.nn.DataParallel(model, device_ids=[0, 1, 2, 3]) 해결 방법 docker container를 생성할 때 --ipc=host 옵션을 추가하면 문제가 해결된다. 메모리 사용을 docker container 내부에서 사용하지 않고 외부의 host를 사용하겠다는 의미이다. $ docker run -it --gpus all --ipc=host --name wooy0ng ubuntu:18.04 /bin/bash 추가 외국 커뮤니티를 뒤져보니 윈도우 환경에서는 multi gpu를 지원하지 않는다는 말도 간혹 보이는 것 같다. ...