「시스템이 멈췄다」 — 클릭·키 입력 모두 안 됨.
원인 다양·진단 어려움.
차분한 접근이 핵심.
원인 후보.
1) CPU 100% 점유한 프로세스.
2) 메모리·swap 폭주.
3) 디스크 IO 100% — 디스크 읽기·쓰기 대기.
4) 네트워크 대기 — NFS 등 응답 없음.
5) 커널 패닉 — 화면에 메시지.
6) 하드웨어 — 디스크 SMART 에러 등.
응급 — Magic SysRq.
Alt+SysRq+R(키보드 raw 모드 해제) → E(SIGTERM 모두) → I(SIGKILL 모두) → S(sync 디스크) → U(read-only 마운트) → B(재부팅).
「Reboot Even If Severe System is Unstable」 줄임.
무리한 재부팅보다 안전.
진단 후 재부팅.
가능하면 재부팅 전에 dmesg·journalctl 확인 — 패닉·OOM·IO 에러 등 단서.
SSH가 살아 있다면 외부에서 들여다보고 진단.
예방.
1) 모니터링 — Prometheus·Grafana로 자원 추적.
2) 알림 — CPU·메모리 임계 넘으면 슬랙.
3) cgroups·systemd로 자원 제한 — 한 프로세스가 시스템 전체 못 다운시키게.
4) swap 적당히 — OOM 일찍 발동 vs 느린 swap thrashing 트레이드오프.
5) IPMI·콘솔 접근 — 진짜 응답 없을 때 외부에서.
한 줄 요약
응답 없는 시스템 — CPU·메모리·IO·네트워크·커널 원인.
Magic SysRq로 안전한 재부팅(REISUB).
모니터링·알림·자원 제한·swap·콘솔 접근으로 예방.
재부팅 전 dmesg·journalctl 단서.
더 알아볼 것
- Magic SysRq 키 활성화 — sysctl
- perf top으로 CPU 핫스팟
- blktrace — 디스크 IO 추적