← 전체 글로 돌아가기

서버 운영

서버 운영 중 데이터 문제가 나타났을 때

프로덕션 서버에서 데이터 누락이나 손상이 발생하면 빠른 진단과 대응이 필수다. 운영 중 데이터 문제를 진단하는 방법을 정리했다.

프로덕션 서버에서 데이터 문제가 생기면 정말 긴급하다. 사용자가 영향을 받고 있을 수 있기 때문이다. 이럴 때는 침착함을 유지하면서 체계적으로 현황을 파악해야 한다.

현재 서버 상태 파악

가장 먼저 할 일은 서버가 지금 정말 문제가 있는 상태인지 확인하는 것이다. 디스크 여유 공간, 프로세스 상태, 메모리 사용량 등을 본다.

sudo ss -lntp
df -h
sudo journalctl -n 80

이 명령들로 현재 서버의 상태를 스냅샷으로 얻을 수 있다. 예를 들어 디스크가 가득 찼으면 새로운 데이터가 저장되지 않을 수 있다.

시간대별로 로그 확인

문제가 언제부터 시작됐는지 파악하는 것도 중요하다. 시스템 로그(journalctl)를 보면 각 이벤트의 시간이 기록되어 있다. 문제가 발생한 시점 근처의 로그를 찾는다.

데이터 백업 상태 확인

만약 데이터 손상이 심하면 백업에서 복구해야 한다. 백업이 최근에 제대로 이루어졌는지, 복구 가능한 상태인지 먼저 확인한다.

  • 마지막 백업이 언제인가
  • 백업 파일의 크기는 정상인가
  • 복구 스크립트는 준비됐는가

권한 확인

데이터 관련 문제는 종종 권한 부족에서 나온다. 데이터베이스 사용자의 권한이 제대로 설정됐는가, 파일 시스템의 권한은 맞는가를 확인한다.

실제로 잃어버린 데이터 파악

어떤 데이터가 손상되거나 누락됐는지 정확히 파악한다. 전체 데이터가 사라진 건지, 특정 사용자의 데이터만 사라진 건지, 특정 기간의 데이터만 없는 건지에 따라 대응이 달라진다.

비교 기준 설정

정상 상태가 무엇인지 미리 정해두면 이상을 빠르게 감지할 수 있다. 예를 들어 매일 특정 시간에 데이터 개수를 기록해두면, 급격한 변화를 쉽게 알아챌 수 있다.

다음 액션 결정

현황을 파악한 후:

  1. 데이터 복구가 필요한가 여부를 판단한다.
  2. 복구 가능한가 확인한다.
  3. 사용자에게 공지할 사항이 있는지 생각한다.

작은 확인들이 모이면 당황스러운 상황도 체계적으로 대응할 수 있다.