운영 시스템의 「건강 상태」를 실시간 추적.
CPU·메모리·디스크·앱 메트릭을 수집·시각화·알림.
Prometheus·Grafana 조합이 표준.
Prometheus.
메트릭 수집·저장·쿼리 시스템.
각 노드에 「exporter」(node_exporter, mysql_exporter 등)를 두고 Prometheus가 주기적으로 「스크래핑」 → DB(시계열)에 저장.
PromQL로 쿼리.
Grafana.
시각화·대시보드·알림.
Prometheus를 데이터 소스로 → 그래프·게이지·표 배치.
「CPU 사용률 시계열」, 「DB 응답 시간 분포」 같은 패널을 마우스로 구성.
기본 설치.
1) sudo apt install prometheus prometheus-node-exporter — 메트릭 수집.
2) Grafana는 deb 패키지 또는 Docker — 시각화.
3) Grafana에 Prometheus 데이터 소스 추가.
4) 공식 대시보드 import — 「Node Exporter Full」 ID 1860 같은 인기 대시보드를 클릭으로 가져옴.
알림.
Grafana 알림 규칙 — 「CPU > 90% 5분 지속 시 슬랙으로」.
Prometheus Alertmanager가 더 정교한 라우팅·억제.
「장애가 사용자 신고로 알려지는」 시대 끝, 「자동 알림 후 5분 내 대응」이 모던 운영.
한 줄 요약
Prometheus는 메트릭 수집·저장(exporter 스크래핑·PromQL), Grafana는 시각화·알림.
공식 대시보드 import로 빠른 시작.
「장애 자동 알림」으로 사용자 신고 전 대응.
더 알아볼 것
- RED·USE 메서드
- 공식 Grafana 대시보드 — grafana.com
- Loki — 같은 패턴 로그