오류 내용 Kubeflow에서 딥러닝 학습 중 다음과 같은 오류가 나타납니다. ERROR: Unexpected bus error encountered in worker.
This might be caused by insufficient shared memory (shm) 오류 해결 클라이언트에서 run.py 파일에 docker에서 사용하는 --ipc=host 기능을 추가합니다. sudo vim run.py . . . def pipeline(): . . . model = ... smh_vol = kfp.dsl.PipelineVolume(name = 'shm-vol', empty_dir = {'medium': 'Memory'}) model.add_pvolumes({'/dev/shm': smh_vol}) . . ....
#
IPC
#
PyTorch_Shared_Memory
#
SHM