Datasets 라이브러리(Hugging Face)는 「수만 개의 공개 데이터셋을 한 줄로 다운로드·사용·전처리하게 해 주는」 도구입니다.
Transformers와 함께 쓰면 ML 워크플로우의 데이터 부분이 매우 간단해집니다.
사용은 단순합니다.
「load_dataset("glue", "sst2")」 한 줄로 SST-2 감정 분석 데이터셋을 즉시 가져옵니다.
첫 사용 시 데이터셋이 다운로드되고 캐시에 저장돼, 이후에는 즉시 로딩됩니다.
주요 기능은 다음과 같습니다.
1) 「데이터셋 검색·다운로드」 — Hugging Face Hub의 25만+ 데이터셋.
2) 「전처리 함수 매핑」 — map() 한 줄로 토크나이저 등을 모든 데이터에 적용.
3) 「Streaming」 — TB급 데이터셋도 메모리에 다 올리지 않고 처리.
4) 「캐싱」 — 같은 작업을 반복할 때 자동 캐시.
비유하자면 Datasets는 「데이터의 npm/pip」입니다.
「pip install pandas」 한 줄로 라이브러리를 가져오듯, 「load_dataset(...)」 한 줄로 검증된 데이터셋을 가져와 즉시 학습에 쓸 수 있습니다.
산업 활용도 풍부합니다.
회사 내부 데이터셋도 같은 인터페이스로 다룰 수 있어, 공개 데이터로 한 실험을 사내 데이터로 옮기기가 쉽습니다.
또 Apache Arrow 기반의 효율적 저장 포맷을 사용해 매우 큰 데이터셋도 빠르게 처리합니다.
한 줄 요약
Datasets는 Hugging Face의 데이터셋 관리 라이브러리로, load_dataset() 한 줄로 25만+ 공개 데이터셋을 즉시 사용할 수 있고 사내 데이터도 같은 인터페이스로 다룹니다.
더 알아볼 것
- Streaming 모드 — 메모리 절약
- map() 함수의 효율적 사용
- 사내 데이터셋의 Hub 비공개 업로드