Mask R-CNN(2017, Facebook AI Research의 카이밍 허 등)은 객체 검출을 한 단계 더 발전시킨 모델입니다.
「객체가 어디에 있는지(검출)」뿐 아니라 「객체의 정확한 픽셀 모양까지(인스턴스 분할)」 동시에 알려 줍니다.
기반 모델은 Faster R-CNN(2015)입니다.
Faster R-CNN이 「영역 제안 → 분류 + 경계 상자」를 한다면, Mask R-CNN은 그 위에 「제안된 영역 안에서 픽셀 단위 마스크를 예측하는」 작은 네트워크 한 가지를 추가로 붙였습니다.
즉 「세 가지 일을 동시에 하는」 멀티태스크 모델입니다.
비유하자면 Mask R-CNN은 「사진 속 사람을 찾을 때 그 사람의 위치(박스)뿐 아니라 정확한 윤곽까지 오려 내는 일」과 같습니다.
단순히 「여기에 사람이 있다」가 아니라 「이 픽셀들이 그 사람의 몸이다」를 알려 줍니다.
Mask R-CNN의 큰 기술적 기여는 「RoIAlign」이라는 작은 개선입니다.
그 전까지는 영역 좌표를 정수로 반올림해 사용했는데, 이로 인해 분할 마스크에 작은 오차가 누적됐습니다.
RoIAlign은 정수 반올림 없이 보간으로 처리해 정확한 픽셀 위치 매칭을 가능하게 했습니다.
Mask R-CNN은 자율주행(차선·보행자 정확한 윤곽), 의료 영상(장기·종양 분할), 사진 편집(객체 잘라내기) 등 「객체의 정확한 모양」이 필요한 모든 분야에서 쓰입니다.
최근에는 Meta의 SAM(Segment Anything Model)이 이 분야를 한 단계 더 끌어올렸습니다.
한 줄 요약
Mask R-CNN은 Faster R-CNN에 픽셀 단위 마스크 예측을 더한 모델로, 객체의 위치뿐 아니라 정확한 모양까지 동시에 출력합니다.
인스턴스 분할의 표준이 되었습니다.
더 알아볼 것
- Faster R-CNN의 RPN(Region Proposal Network)
- Semantic vs Instance vs Panoptic Segmentation
- Detectron2 — Meta의 객체 검출 라이브러리