MLflow는 Databricks가 만든 「머신러닝 라이프사이클을 관리하는」 오픈소스 도구입니다.
실험 추적·모델 패키징·모델 레지스트리·서빙까지 ML 운영의 전체 단계를 한 도구로 다룹니다.
wandb의 강력한 경쟁자이며 「자체 호스팅이 필요한 환경」에서 자주 채택됩니다.
MLflow의 네 가지 핵심 모듈은 다음과 같습니다.
1) 「Tracking」 — 실험 지표·파라미터·결과 기록(wandb와 비슷).
2) 「Projects」 — ML 코드를 재현 가능한 형태로 패키징.
3) 「Models」 — 학습된 모델을 표준 포맷으로 저장.
4) 「Model Registry」 — 모델의 단계(Staging·Production·Archived)와 버전 관리.
MLflow의 가장 큰 매력은 「자체 호스팅」입니다.
wandb는 SaaS(클라우드 서비스)가 기본인 데 비해 MLflow는 자기 서버나 컨테이너에서 무료로 운영할 수 있습니다.
의료·금융·국방처럼 데이터 외부 유출이 금지된 환경에서 결정적입니다.
또 「Databricks 생태계와의 통합」이 강점입니다.
Databricks 플랫폼에서는 MLflow가 기본으로 통합돼 있어 데이터 처리·학습·관리·서빙을 한 환경에서 처리할 수 있습니다.
큰 데이터 분석 기업에서 자주 사용됩니다.
단점은 UI·UX가 wandb보다 다소 투박하고, 시각화 기능이 약한 편입니다.
팀 협업 기능도 wandb만큼 자연스럽지 않습니다.
그래도 「오픈소스 + 자체 호스팅 + 모델 레지스트리」의 조합은 산업 현장에서 매우 가치 있어, MLOps의 표준 도구 중 하나로 자리잡았습니다.
한 줄 요약
MLflow는 Databricks가 만든 오픈소스 ML 관리 도구로, 실험 추적·모델 패키징·레지스트리·서빙을 한 환경에서 다룹니다.
자체 호스팅이 필요한 환경의 표준입니다.
더 알아볼 것
- MLflow vs wandb 비교
- MLflow Model Registry — 단계별 모델 관리
- Databricks와의 통합