ONNX Runtime : High-performance deep learning inference

안녕하세요. 메이아이의 ML Engineer 정재민입니다.

앞서 TensorRT 포스팅을 통해 Unsupported Operator 가 없는 간단한 PyTorch MNIST 분류기 모델을 TensorRT로 동작시키기 위해 필요한 과정을 살펴보았는데요. 그 결과 별도의 처리 없이도 Inference 속도가 5~6배 상승하는 놀라운 결과를 확인할 수 있었습니다.

물론 MNIST 모델은 굳이 TensorRT의 도움을 받지 않더라도 충분히 빠르게 동작하는 모델이긴 합니다. 다만, 실제 현장에서 사용하는 딥러닝 모델은 이와 비교가 되지 않을 정도로 크고 복잡합니다.

따라서 이러한 큰 딥러닝 모델을 이용하기 위해서는 CUDA 연산이 필수적이며, 당연히 CUDA 연산 처리에 최적화되어있는 TensorRT를 이용하는 것이 추천됩니다. 하지만 TensorRT에는 커다란 문제점이 하나 있는데, 바로 앞에서도 잠시 언급되었던 Unsupported Operator입니다.

TensorRT가 지원하는 연산자...

요청 처리 중입니다...

ONNX Runtime : High-performance deep learning inference

등록된 다른 글