vLLM은 UC Berkeley에서 시작된 「LLM 추론을 매우 빠르게 만들어 주는」 오픈소스 추론 엔진입니다.
2023년 공개 이후 LLM 서빙의 사실상 표준이 됐고, OpenAI·Anthropic 같은 폐쇄형 서비스도 비슷한 기술을 내부적으로 씁니다.
vLLM의 핵심 기술은 「PagedAttention」입니다.
운영체제의 가상 메모리에서 영감을 얻어, KV 캐시(LLM 추론 시 가장 큰 메모리 사용처)를 작은 페이지로 나눠 관리합니다.
이 단순한 변화로 GPU 메모리 사용을 절반 이하로 줄이고, 처리량을 24배까지 높였습니다.
또 다른 핵심은 「Continuous Batching」입니다.
일반 추론 서버는 「배치 단위로 묶어 한꺼번에 처리」하는데, 한 요청이 길면 모든 요청이 그것을 기다려야 합니다.
vLLM은 한 요청이 끝나면 다음 요청을 즉시 채워 넣어 GPU가 쉬는 시간을 없앱니다.
비유하자면 vLLM은 「공항의 효율적 게이트 운영」과 같습니다.
일반 추론은 「모든 비행기가 동시에 출발 준비를 마쳐야 게이트를 떠난다」면, vLLM은 「준비된 비행기부터 즉시 보내고 빈 게이트에 다음 비행기를 채운다」는 방식입니다.
vLLM은 OpenAI 호환 API를 제공해 기존 코드를 거의 그대로 옮길 수 있고, Llama·Mistral·Qwen 등 거의 모든 오픈 LLM을 지원합니다.
자체 호스팅 LLM 서비스를 운영하는 회사·연구실의 사실상 표준이 되었습니다.
한 줄 요약
vLLM은 PagedAttention과 Continuous Batching으로 LLM 추론 처리량을 24배까지 높인 추론 엔진으로, 자체 호스팅 LLM 서비스의 사실상 표준입니다.
더 알아볼 것
- PagedAttention의 작동 원리
- Speculative Decoding — 또 다른 가속 기법
- TGI(Text Generation Inference) — Hugging Face의 경쟁 서버