Triton과 TensorRT는 NVIDIA가 만든 「학습된 모델의 추론을 GPU에서 최대한 빠르게 만들어 주는」 도구들입니다.
두 도구는 역할이 다릅니다 — TensorRT는 「모델 자체의 최적화」, Triton은 「최적화된 모델을 효율적으로 서빙」.
TensorRT는 PyTorch·TensorFlow·ONNX로 학습한 모델을 받아 NVIDIA GPU에 최적화된 형태로 변환해 줍니다.
연산 그래프 최적화, 정밀도 변환(FP32 → FP16 → INT8), 커널 융합, 메모리 최적화 같은 기법으로 추론 속도를 2~10배 끌어올립니다.
Triton Inference Server는 다양한 프레임워크의 모델을 한 서버에서 서빙합니다.
PyTorch·TensorFlow·ONNX·TensorRT·Python 모델을 모두 지원하고, 동적 배치·동시 모델 실행·HTTP/gRPC API 등 프로덕션에 필요한 모든 기능을 제공합니다.
비유하자면 TensorRT는 「자동차의 엔진 튜닝」, Triton은 「택시 회사의 배차 시스템」과 같습니다.
TensorRT가 한 모델의 속도를 끌어올린다면, Triton은 여러 모델·여러 요청을 효율적으로 처리합니다.
둘을 함께 쓰면 「최적화된 모델 + 최적화된 서빙」이 됩니다.
산업 환경에서 매우 자주 쓰입니다.
자율주행 차량의 실시간 객체 검출, 콜센터의 음성 인식, 영상 스트리밍의 실시간 처리, 의료 영상 진단 등 「밀리초 단위 응답」이 필요한 곳에서는 거의 표준입니다.
단점은 NVIDIA GPU에만 묶인다는 점이며, 다른 하드웨어에서는 OpenVINO(인텔)·CoreML(애플)·ExecuTorch(PyTorch) 같은 대안을 씁니다.
한 줄 요약
TensorRT는 모델을 NVIDIA GPU에 최적화하는 컴파일러, Triton은 다양한 모델을 효율적으로 서빙하는 추론 서버입니다.
자율주행·실시간 영상 처리의 표준입니다.
더 알아볼 것
- FP16·INT8 양자화 — TensorRT의 핵심
- ONNX와 TensorRT의 관계
- OpenVINO·ExecuTorch — 비-NVIDIA 대안