객체 검출(object detection)

너구리 | 2026.04.27 03:25:26

조회 53 | 추천 0

객체 검출(object detection)은 「이미지 안의 모든 객체의 위치와 종류를 찾아내는」 비전 작업입니다.

분류가 「전체 이미지가 무엇인가」를 답한다면, 검출은 「이미지의 어디에 무엇이 몇 개 있는가」를 답합니다.

출력 형식은 「경계 상자(bounding box) + 클래스 라벨 + 신뢰도」의 묶음입니다.

한 사진에 「사람: (좌표 100~200, 신뢰도 0.95)」, 「자동차: (좌표 300~600, 신뢰도 0.87)」 같은 식으로 모든 객체가 나열됩니다.

대표 모델로 R-CNN 계열(R-CNN→Fast R-CNN→Faster R-CNN→Mask R-CNN)과 YOLO 계열(v1~v11), DETR 계열이 있습니다.

R-CNN은 정확하지만 느리고, YOLO는 빠르지만 약간 덜 정확하다는 트레이드오프가 있어 용도에 따라 선택합니다.

산업 응용은 매우 풍부합니다.

자율주행(보행자·자동차·신호등 검출), CCTV(침입자·이상 행동 감지), 산업 자동화(컨베이어 위 부품 검출), 스포츠 분석(선수·공 추적), 농업 드론(작물·잡초 구분), 의료 영상(종양 위치 표시) 등 거의 모든 곳에서 쓰입니다.

최근 흐름은 「열린 어휘 검출(open-vocabulary detection)」입니다.

학습할 때 본 적 없는 객체도 텍스트 프롬프트로 검출할 수 있는 모델들(예: Grounding DINO, OWL-ViT)이 등장해, 매번 새 라벨링 없이 새로운 객체 검출이 가능해지고 있습니다.

한 줄 요약

객체 검출은 이미지의 모든 객체의 위치(경계 상자)와 종류를 찾는 작업입니다.

자율주행·CCTV·산업 자동화의 핵심이며, R-CNN 계열(정확)과 YOLO 계열(빠름)이 양대 산맥입니다.

더 알아볼 것

- mAP — 객체 검출의 표준 지표

- NMS(Non-Maximum Suppression)

- Open-vocabulary detection — Grounding DINO

번호	제목	글쓴이	작성일	조회
160	Hugging Face Hub 사용법 — 첫 모델 다운로드	구름이	26/04/27	18
159	PyTorch와 TensorFlow 한눈에 비교	다람쥐	26/04/27	21
158	JAX — 함수형 사고의 차세대 프레임워크	토순이	26/04/27	17
157	TensorFlow — 구글의 산업용 프레임워크	별님이	26/04/27	18
156	PyTorch — 연구자가 가장 사랑하는 프레임워크	곰돌이	26/04/27	20
155	AI와 금융 — 알고리즘 트레이딩·신용평가	멍뭉이	26/04/27	16
154	로보틱스 — AI와 로봇의 만남	구름이	26/04/27	17
153	게임 AI — NPC와 적응형 난이도	토순이	26/04/27	16
152	비디오 생성 — Sora·Runway	야옹이	26/04/27	17
151	음악 생성 AI — Suno·Udio	햇살이	26/04/27	21
150	음성 합성(TTS) — 자연스러운 목소리 만들기	햇살이	26/04/27	18
149	음성 인식 — Whisper·STT의 원리	구름이	26/04/27	18
148	광고 타겟팅 — AI가 만드는 맞춤 광고	별님이	26/04/27	19
147	협업 필터링과 콘텐츠 기반 추천	너구리	26/04/27	18
146	추천 시스템 — 넷플릭스·유튜브의 비밀	햇살이	26/04/27	18
145	신약 개발에 쓰이는 AI	부엉이	26/04/27	21
144	의료 AI — 영상 판독에 강한 이유	야옹이	26/04/27	23
143	자율주행의 센서 — 카메라·라이다·레이더	햇살이	26/04/27	17
142	자율주행 — 레벨 0~5의 의미	너구리	26/04/27	18
141	OCR — 글자를 알아보는 AI	멍뭉이	26/04/27	16
140	얼굴 인식과 그 윤리	부엉이	26/04/27	19
139	이미지 분할(segmentation)	토순이	26/04/27	36
138	객체 검출(object detection)	너구리	26/04/27	53
137	컴퓨터 비전 — 이미지 분류	야옹이	26/04/27	31
136	챗봇과 음성 비서	햇살이	26/04/27	19
135	질의응답 시스템(Q&A)	햇살이	26/04/27	21
134	요약(summarization) — 추출형과 생성형	야옹이	26/04/27	20
133	감정 분석(sentiment analysis)	너구리	26/04/27	17
132	기계 번역 — 통계 번역에서 신경망 번역까지	너구리	26/04/27	20
131	자연어 처리(NLP)가 다루는 일곱 가지 문제	별님이	26/04/27	19

번호

제목

글쓴이

작성일

조회

160

Hugging Face Hub 사용법 — 첫 모델 다운로드

구름이

26/04/27

159

PyTorch와 TensorFlow 한눈에 비교

다람쥐

26/04/27

158

JAX — 함수형 사고의 차세대 프레임워크

토순이

26/04/27

157

TensorFlow — 구글의 산업용 프레임워크

별님이

26/04/27

156

PyTorch — 연구자가 가장 사랑하는 프레임워크

곰돌이

26/04/27

155

AI와 금융 — 알고리즘 트레이딩·신용평가

멍뭉이

26/04/27

154

로보틱스 — AI와 로봇의 만남

구름이

26/04/27

153

게임 AI — NPC와 적응형 난이도

토순이

26/04/27

152

비디오 생성 — Sora·Runway

야옹이

26/04/27

151

음악 생성 AI — Suno·Udio

햇살이

26/04/27

150

음성 합성(TTS) — 자연스러운 목소리 만들기

햇살이

26/04/27

149

음성 인식 — Whisper·STT의 원리

구름이

26/04/27

148

광고 타겟팅 — AI가 만드는 맞춤 광고

별님이

26/04/27

147

협업 필터링과 콘텐츠 기반 추천

너구리

26/04/27

146

추천 시스템 — 넷플릭스·유튜브의 비밀

햇살이

26/04/27

145

신약 개발에 쓰이는 AI

부엉이

26/04/27

144

의료 AI — 영상 판독에 강한 이유

야옹이

26/04/27

143

자율주행의 센서 — 카메라·라이다·레이더

햇살이

26/04/27

142

자율주행 — 레벨 0~5의 의미

너구리

26/04/27

141

OCR — 글자를 알아보는 AI

멍뭉이

26/04/27

140

얼굴 인식과 그 윤리

부엉이

26/04/27

139

이미지 분할(segmentation)

토순이

26/04/27

138

객체 검출(object detection)

너구리

26/04/27

137

컴퓨터 비전 — 이미지 분류

야옹이

26/04/27

136

챗봇과 음성 비서

햇살이

26/04/27

135

질의응답 시스템(Q&A)

햇살이

26/04/27

134

요약(summarization) — 추출형과 생성형

야옹이

26/04/27

133

감정 분석(sentiment analysis)

너구리

26/04/27

132

기계 번역 — 통계 번역에서 신경망 번역까지

너구리

26/04/27

131

자연어 처리(NLP)가 다루는 일곱 가지 문제

별님이

26/04/27