Logo
내 게시판 만들기
인공지능(AI)

데이터 증강(data augmentation) — 부풀려서 학습하기

다람쥐 | 2026.04.27 03:05:42
조회 25 | 추천 0

데이터 증강(data augmentation)은 「있는 데이터를 살짝씩 변형해 가짜 새 데이터처럼 만들어 학습 데이터의 양을 부풀리는」 기법입니다.

데이터를 더 모으는 비용 없이 모델의 일반화 능력을 크게 끌어올리는 강력한 도구입니다.



이미지에서 가장 흔한 증강은 「회전·뒤집기·확대·밝기 조절·잘라내기」 등입니다.

같은 고양이 사진을 좌우 뒤집고, 약간 회전하고, 밝기를 바꾸면 모델 입장에서는 다른 사진처럼 보이지만 「고양이라는 라벨」은 그대로입니다.

한 장이 사실상 수십 장이 되는 셈입니다.



비유하자면 데이터 증강은 「한 권의 단어장을 다양한 글씨체·색깔·각도로 다시 인쇄해 학생에게 보여 주는 일」과 같습니다.

학생은 같은 단어를 여러 모습으로 만나며, 결국 어떤 모습으로 적혀 있어도 단어를 알아볼 수 있게 됩니다.



자연어에서는 동의어 교체, 역번역(영→한→영으로 다시 돌리기), 단어 무작위 마스킹 같은 증강이 쓰입니다.

음성에서는 노이즈 추가·속도 변경·피치 변경 등이 표준입니다.

시계열 데이터에서는 시간 늘리기·줄이기, 작은 노이즈 추가 등이 흔합니다.



최근에는 「믹스업(MixUp)」, 「컷믹스(CutMix)」 같은 더 영리한 기법도 등장했습니다.

두 이미지를 일정 비율로 섞거나 한 이미지의 일부를 다른 이미지로 덮어 씌워 만든 새 이미지로 학습시키는 방식이며, 모델의 강건성을 크게 높여 줍니다.




한 줄 요약


데이터 증강은 이미지·텍스트·음성에 작은 변형을 가해 학습 데이터를 가짜로 부풀리는 기법으로, 데이터를 더 모으는 비용 없이 모델의 일반화 능력을 크게 끌어올립니다.




더 알아볼 것


- AutoAugment — 자동으로 증강 정책 찾기

- MixUp·CutMix·Mosaic

- 역번역(back-translation) — 자연어 증강의 정석

공유하기
목록보기
번호 제목 글쓴이 작성일 조회 좋아요
100 구름이 26/04/27 21 0
99 다람쥐 26/04/27 20 0
98 곰돌이 26/04/27 20 0
97 구름이 26/04/27 21 0
96 구름이 26/04/27 18 0
95 구름이 26/04/27 17 0
94 구름이 26/04/27 18 0
93 부엉이 26/04/27 19 0
92 별님이 26/04/27 17 0
91 부엉이 26/04/27 18 0
90 다람쥐 26/04/27 19 0
89 너구리 26/04/27 21 0
88 구름이 26/04/27 18 0
87 구름이 26/04/27 18 0
86 멍뭉이 26/04/27 22 0
85 너구리 26/04/27 28 0
84 햇살이 26/04/27 30 0
83 구름이 26/04/27 19 0
82 부엉이 26/04/27 19 0
81 다람쥐 26/04/27 19 0
80 별님이 26/04/27 24 0
79 구름이 26/04/27 20 0
78 야옹이 26/04/27 22 0
77 별님이 26/04/27 19 0
76 구름이 26/04/27 19 0
75 햇살이 26/04/27 30 0
74 햇살이 26/04/27 30 0
73 부엉이 26/04/27 30 0
72 다람쥐 26/04/27 25 0
71 토순이 26/04/27 22 0
신고하기

신고 사유를 선택해 주세요.