YOLO(You Only Look Once)는 객체 검출(object detection)의 게임을 바꾼 모델 가족입니다.
2016년 조셉 레드몬(Joseph Redmon)이 처음 발표했고, 이름 그대로 「이미지를 한 번만 보고 모든 객체의 위치와 종류를 동시에 찾아 주는」 매우 빠른 검출기입니다.
YOLO 이전의 객체 검출은 「영역 제안 → 분류」의 두 단계 파이프라인(R-CNN 계열)이었습니다.
정확하지만 느렸습니다.
YOLO는 이미지를 격자로 나누고 각 격자가 「자기 안에 객체가 있는지, 어떤 객체인지, 어떤 박스 안에 있는지」를 동시에 예측해 한 번의 신경망 통과로 모든 검출을 끝냅니다.
비유하자면 YOLO는 「방에 들어가 한 번 둘러보고 모든 사람과 물건을 한꺼번에 파악하는」 일과 같습니다.
「먼저 한 명을 찾고, 그 다음 또 한 명을 찾고...」 식으로 따로 보지 않습니다.
이 덕분에 YOLO는 실시간(30~60 FPS) 처리가 가능해졌습니다.
YOLOv1(2016) 이후 v2, v3, v4, v5, v7, v8, v11까지 빠르게 진화했습니다.
각 버전마다 정확도와 속도가 향상됐고, 현재는 자율주행·CCTV 분석·드론 비전·산업 검사 등 거의 모든 실시간 객체 검출 분야의 표준이 되었습니다.
흥미로운 점은 v3까지의 원작자 조셉 레드몬이 「자기 연구가 군사용으로 쓰일 수 있다」는 윤리적 이유로 개발에서 손을 뗐다는 것입니다.
그 후 v4부터는 다른 연구자들이 이어 받았고, 지금도 여러 팀이 경쟁적으로 새 버전을 내놓고 있습니다.
한 줄 요약
YOLO는 이미지를 한 번만 보고 모든 객체의 위치·종류를 동시에 찾는 실시간 객체 검출 모델로, 자율주행·CCTV·드론 등 거의 모든 실시간 비전 분야의 표준입니다.
더 알아볼 것
- YOLOv5와 Ultralytics
- YOLO vs Faster R-CNN — 속도와 정확도의 트레이드오프
- Anchor box와 Anchor-free 검출