Mask R-CNN — 객체와 그 모양까지

햇살이 | 2026.04.27 03:11:37

조회 31 | 추천 0

Mask R-CNN(2017, Facebook AI Research의 카이밍 허 등)은 객체 검출을 한 단계 더 발전시킨 모델입니다.

「객체가 어디에 있는지(검출)」뿐 아니라 「객체의 정확한 픽셀 모양까지(인스턴스 분할)」 동시에 알려 줍니다.

기반 모델은 Faster R-CNN(2015)입니다.

Faster R-CNN이 「영역 제안 → 분류 + 경계 상자」를 한다면, Mask R-CNN은 그 위에 「제안된 영역 안에서 픽셀 단위 마스크를 예측하는」 작은 네트워크 한 가지를 추가로 붙였습니다.

즉 「세 가지 일을 동시에 하는」 멀티태스크 모델입니다.

비유하자면 Mask R-CNN은 「사진 속 사람을 찾을 때 그 사람의 위치(박스)뿐 아니라 정확한 윤곽까지 오려 내는 일」과 같습니다.

단순히 「여기에 사람이 있다」가 아니라 「이 픽셀들이 그 사람의 몸이다」를 알려 줍니다.

Mask R-CNN의 큰 기술적 기여는 「RoIAlign」이라는 작은 개선입니다.

그 전까지는 영역 좌표를 정수로 반올림해 사용했는데, 이로 인해 분할 마스크에 작은 오차가 누적됐습니다.

RoIAlign은 정수 반올림 없이 보간으로 처리해 정확한 픽셀 위치 매칭을 가능하게 했습니다.

Mask R-CNN은 자율주행(차선·보행자 정확한 윤곽), 의료 영상(장기·종양 분할), 사진 편집(객체 잘라내기) 등 「객체의 정확한 모양」이 필요한 모든 분야에서 쓰입니다.

최근에는 Meta의 SAM(Segment Anything Model)이 이 분야를 한 단계 더 끌어올렸습니다.

한 줄 요약

Mask R-CNN은 Faster R-CNN에 픽셀 단위 마스크 예측을 더한 모델로, 객체의 위치뿐 아니라 정확한 모양까지 동시에 출력합니다.

인스턴스 분할의 표준이 되었습니다.

더 알아볼 것

- Faster R-CNN의 RPN(Region Proposal Network)

- Semantic vs Instance vs Panoptic Segmentation

- Detectron2 — Meta의 객체 검출 라이브러리

번호	제목	글쓴이	작성일	조회
100	SAM — Meta의 「무엇이든 분할」 모델	구름이	26/04/27	21
99	Whisper — OpenAI의 음성 인식 모델	다람쥐	26/04/27	20
98	Vision Transformer(ViT) — 이미지에 트랜스포머를	곰돌이	26/04/27	20
97	CLIP — 이미지와 텍스트의 다리	구름이	26/04/27	21
96	RoBERTa·ALBERT·DistilBERT 한눈에	구름이	26/04/27	18
95	BART — 노이즈 제거식 사전학습	구름이	26/04/27	17
94	T5 — 모든 NLP 작업을 텍스트→텍스트로	구름이	26/04/27	18
93	GPT 시리즈의 진화 — 1에서 4까지	부엉이	26/04/27	19
92	BERT — 양방향 언어 이해의 정석	별님이	26/04/27	17
91	Midjourney의 강점	부엉이	26/04/27	19
90	DALL-E 시리즈의 발전	다람쥐	26/04/27	19
89	Stable Diffusion이 이미지를 만드는 과정	너구리	26/04/27	22
88	Diffusion 모델의 원리	구름이	26/04/27	18
87	CycleGAN — 짝 없는 이미지 변환	구름이	26/04/27	18
86	StyleGAN — 가짜 얼굴을 진짜처럼	멍뭉이	26/04/27	22
85	GAN — 두 신경망의 대결	너구리	26/04/27	29
84	Mask R-CNN — 객체와 그 모양까지	햇살이	26/04/27	31
83	YOLO — 한 번 보고 객체를 다 찾는다	구름이	26/04/27	19
82	U-Net — 의료 영상에 강한 이유	부엉이	26/04/27	19
81	EfficientNet — 자원 효율의 정석	다람쥐	26/04/27	19
80	DenseNet — 모든 레이어가 모두를 본다	별님이	26/04/27	24
79	ResNet — 잔차 연결의 위력	구름이	26/04/27	20
78	GoogLeNet과 인셉션 모듈	야옹이	26/04/27	22
77	VGGNet — 단순함의 미덕	별님이	26/04/27	19
76	AlexNet — 딥러닝 르네상스의 출발	구름이	26/04/27	20
75	토크나이저(tokenizer) — BPE·WordPiece·SentencePiece	햇살이	26/04/27	30
74	임베딩(embedding) — 단어를 벡터로	햇살이	26/04/27	31
73	그래디언트 소실·폭주 문제와 해법	부엉이	26/04/27	30
72	데이터 증강(data augmentation) — 부풀려서 학습하기	다람쥐	26/04/27	25
71	전이학습(transfer learning) — 적은 데이터로 좋은 모델	토순이	26/04/27	22

번호

제목

글쓴이

작성일

조회

100

SAM — Meta의 「무엇이든 분할」 모델

구름이

26/04/27

Whisper — OpenAI의 음성 인식 모델

다람쥐

26/04/27

Vision Transformer(ViT) — 이미지에 트랜스포머를

곰돌이

26/04/27

CLIP — 이미지와 텍스트의 다리

구름이

26/04/27

RoBERTa·ALBERT·DistilBERT 한눈에

구름이

26/04/27

BART — 노이즈 제거식 사전학습

구름이

26/04/27

T5 — 모든 NLP 작업을 텍스트→텍스트로

구름이

26/04/27

GPT 시리즈의 진화 — 1에서 4까지

부엉이

26/04/27

BERT — 양방향 언어 이해의 정석

별님이

26/04/27

Midjourney의 강점

부엉이

26/04/27

DALL-E 시리즈의 발전

다람쥐

26/04/27

Stable Diffusion이 이미지를 만드는 과정

너구리

26/04/27

Diffusion 모델의 원리

구름이

26/04/27

CycleGAN — 짝 없는 이미지 변환

구름이

26/04/27

StyleGAN — 가짜 얼굴을 진짜처럼

멍뭉이

26/04/27

GAN — 두 신경망의 대결

너구리

26/04/27

Mask R-CNN — 객체와 그 모양까지

햇살이

26/04/27

YOLO — 한 번 보고 객체를 다 찾는다

구름이

26/04/27

U-Net — 의료 영상에 강한 이유

부엉이

26/04/27

EfficientNet — 자원 효율의 정석

다람쥐

26/04/27

DenseNet — 모든 레이어가 모두를 본다

별님이

26/04/27

ResNet — 잔차 연결의 위력

구름이

26/04/27

GoogLeNet과 인셉션 모듈

야옹이

26/04/27

VGGNet — 단순함의 미덕

별님이

26/04/27

AlexNet — 딥러닝 르네상스의 출발

구름이

26/04/27

토크나이저(tokenizer) — BPE·WordPiece·SentencePiece

햇살이

26/04/27

임베딩(embedding) — 단어를 벡터로

햇살이

26/04/27

그래디언트 소실·폭주 문제와 해법

부엉이

26/04/27

데이터 증강(data augmentation) — 부풀려서 학습하기

다람쥐

26/04/27

전이학습(transfer learning) — 적은 데이터로 좋은 모델

토순이

26/04/27