SAM(Segment Anything Model, 2023, Meta)은 이미지 분할(segmentation) 분야에 혁명을 일으킨 모델입니다.
이름 그대로 「이미지에서 무엇이든 분할할 수 있다」를 목표로 하며, 클릭 한 번이나 박스 한 번만으로 객체의 정확한 윤곽을 즉시 잡아냅니다.
그 전까지의 분할 모델은 「강아지 분할」, 「자동차 분할」 같은 특정 클래스에 한정되어 있었습니다.
SAM은 학습 시 1,100만 장의 이미지에서 11억 개의 마스크를 자동 생성한 거대 데이터(SA-1B)로 학습돼, 처음 보는 객체도 분할할 수 있게 됐습니다.
사용 방법이 매우 직관적입니다.
사용자가 이미지의 한 점을 클릭하면 SAM은 그 점이 속한 객체의 윤곽을 만들어 냅니다.
박스를 그리면 그 안의 주된 객체를 분할해 줍니다.
마우스 클릭 몇 번으로 사진 편집의 「객체 잘라 내기」가 즉시 됩니다.
비유하자면 SAM은 「이미지 위에 마법의 가위를 놓는 일」과 같습니다.
가위를 어느 객체 위에 두고 잠깐 누르면 그 객체의 윤곽을 따라 정확히 잘라 줍니다.
학습 때 본 적 없는 객체도, 새로운 종류의 동물도 그냥 됩니다.
SAM은 코드와 가중치가 모두 공개되어 의료 영상(종양 분할), 자율주행(차선 검출), 사진 편집(배경 제거), 위성 영상 분석 등 수많은 분야에서 즉시 활용되고 있습니다.
SAM 2(2024)는 비디오로 확장되어 「움직이는 객체의 분할 추적」까지 가능합니다.
한 줄 요약
SAM은 「클릭 한 번으로 무엇이든 분할」을 가능케 한 Meta의 모델로, 11억 개 마스크의 거대 학습으로 처음 보는 객체도 정확히 분할합니다.
SAM 2는 비디오까지 확장됐습니다.
더 알아볼 것
- SA-1B 데이터셋의 크기와 의미
- SAM의 점·박스·텍스트 프롬프트
- 의료 영상에서의 SAM 응용