객체 검출(object detection)은 「이미지 안의 모든 객체의 위치와 종류를 찾아내는」 비전 작업입니다.
분류가 「전체 이미지가 무엇인가」를 답한다면, 검출은 「이미지의 어디에 무엇이 몇 개 있는가」를 답합니다.
출력 형식은 「경계 상자(bounding box) + 클래스 라벨 + 신뢰도」의 묶음입니다.
한 사진에 「사람: (좌표 100~200, 신뢰도 0.95)」, 「자동차: (좌표 300~600, 신뢰도 0.87)」 같은 식으로 모든 객체가 나열됩니다.
대표 모델로 R-CNN 계열(R-CNN→Fast R-CNN→Faster R-CNN→Mask R-CNN)과 YOLO 계열(v1~v11), DETR 계열이 있습니다.
R-CNN은 정확하지만 느리고, YOLO는 빠르지만 약간 덜 정확하다는 트레이드오프가 있어 용도에 따라 선택합니다.
산업 응용은 매우 풍부합니다.
자율주행(보행자·자동차·신호등 검출), CCTV(침입자·이상 행동 감지), 산업 자동화(컨베이어 위 부품 검출), 스포츠 분석(선수·공 추적), 농업 드론(작물·잡초 구분), 의료 영상(종양 위치 표시) 등 거의 모든 곳에서 쓰입니다.
최근 흐름은 「열린 어휘 검출(open-vocabulary detection)」입니다.
학습할 때 본 적 없는 객체도 텍스트 프롬프트로 검출할 수 있는 모델들(예: Grounding DINO, OWL-ViT)이 등장해, 매번 새 라벨링 없이 새로운 객체 검출이 가능해지고 있습니다.
한 줄 요약
객체 검출은 이미지의 모든 객체의 위치(경계 상자)와 종류를 찾는 작업입니다.
자율주행·CCTV·산업 자동화의 핵심이며, R-CNN 계열(정확)과 YOLO 계열(빠름)이 양대 산맥입니다.
더 알아볼 것
- mAP — 객체 검출의 표준 지표
- NMS(Non-Maximum Suppression)
- Open-vocabulary detection — Grounding DINO