운영 서버에서 일부 서버 CPU가 100%를 찍고 내려오지 않는 이슈가 발생했습니다. CPU 집약 작업이더라도 끝나면 내려오는 게 정상인데, 1시간이 넘도록 CPU가 내려오지 않는 증상이 확인됐습니다.
JVM(Java) 환경을 메인으로 다른 언어인 Python, Node.js 환경에서도 진단하는 방법을 함께 정리했습니다. * 이 글은 원인 자체보다 CPU가 튀는 상황에서 서버에서 원인을 찾아가는 과정에 초점을 맞춥니다. 문제 상황 운영 서버 일부에서 CPU 사용률 100% 지속 1시간 이상 내려오지 않음 전체 서버가 아닌 일부 서버에서만 발생 우선 모니터링 대시보드에서 CPU, 메모리, 디스크 I/O, 네트워크 트래픽을 확인했습니다.
네트워크 트래픽을 서버별로 확인한 결과, 특정 서버에 트래픽이 몰린 상황은 아니었습니다. 인프라 레벨의 문제보다 애플리케이션 레벨 문제일 가능성이 높다고 판단하여 프로세스 분석으로 넘어갔습니다.
공통: 프로세스 및 스레드 확인 언어에 관계없이 첫 두 단...
원문 링크 : CPU 100% 원인 분석: JVM과 언어별 진단 방법