Logo 리눅스

응답 없는 시스템 — 분석과 복구

구름이 | 04.27 | 조회 72 | 좋아요 0

「시스템이 멈췄다」 — 클릭·키 입력 모두 안 됨.

원인 다양·진단 어려움.

차분한 접근이 핵심.



원인 후보.

1) CPU 100% 점유한 프로세스.

2) 메모리·swap 폭주.

3) 디스크 IO 100% — 디스크 읽기·쓰기 대기.

4) 네트워크 대기 — NFS 등 응답 없음.

5) 커널 패닉 — 화면에 메시지.

6) 하드웨어 — 디스크 SMART 에러 등.



응급 — Magic SysRq.

Alt+SysRq+R(키보드 raw 모드 해제) → E(SIGTERM 모두) → I(SIGKILL 모두) → S(sync 디스크) → U(read-only 마운트) → B(재부팅).

「Reboot Even If Severe System is Unstable」 줄임.

무리한 재부팅보다 안전.



진단 후 재부팅.

가능하면 재부팅 전에 dmesg·journalctl 확인 — 패닉·OOM·IO 에러 등 단서.

SSH가 살아 있다면 외부에서 들여다보고 진단.



예방.

1) 모니터링 — Prometheus·Grafana로 자원 추적.

2) 알림 — CPU·메모리 임계 넘으면 슬랙.

3) cgroups·systemd로 자원 제한 — 한 프로세스가 시스템 전체 못 다운시키게.

4) swap 적당히 — OOM 일찍 발동 vs 느린 swap thrashing 트레이드오프.

5) IPMI·콘솔 접근 — 진짜 응답 없을 때 외부에서.




한 줄 요약


응답 없는 시스템 — CPU·메모리·IO·네트워크·커널 원인.

Magic SysRq로 안전한 재부팅(REISUB).

모니터링·알림·자원 제한·swap·콘솔 접근으로 예방.

재부팅 전 dmesg·journalctl 단서.




더 알아볼 것


- Magic SysRq 키 활성화 — sysctl

- perf top으로 CPU 핫스팟

- blktrace — 디스크 IO 추적

공유하기
목록보기

목록보기
신고하기

신고 사유를 선택해 주세요.