← 전체 글로 돌아가기

웹 개발

robots.txt 설정 확인 순서

검색 엔진 크롤러 차단이나 콘텐츠 노출 문제를 해결하기 위한 robots.txt 설정 확인 방법.

웹사이트를 검색 결과에 올리려면 robots.txt를 제대로 설정해야 한다. 크롤러가 특정 페이지를 못 읽거나, 수집하지 말아야 할 페이지까지 수집되는 경우가 있다. 이런 상황을 해결하기 위해 robots.txt를 어떻게 확인하고 수정하는지 정리했다.

현재 설정 확인

먼저 사이트의 robots.txt가 실제로 공개되어 있는지 확인한다.

curl -I https://example.com/robots.txt

200 응답이 나오면 정상이다. 404가 나오면 파일이 없거나 경로가 잘못됐다.

크롤러 허용 범위 확인

robots.txt의 내용을 확인해서, 현재 어느 경로를 허용하고 어디를 차단하는지 본다.

curl -s https://example.com/robots.txt

일반적인 형식:

  • Allow: /public - 이 경로는 크롤러에게 공개
  • Disallow: /admin - 이 경로는 크롤러가 접근 불가
  • User-agent: * - 모든 크롤러에게 적용
  • Crawl-delay: 1 - 크롤러가 1초 간격으로 요청

Google Search Console에서 확인

Google Search Console에 사이트를 등록하고, "범위" 섹션에서 robots.txt 커버리지를 확인한다. 차단된 페이지들이 의도한 대로인지 검증한다.

발생 가능한 문제

  • Disallow: /로 설정하면 모든 크롤러가 차단됨
  • Allow 규칙이 크롤러에게 무시될 수도 있음 (검색 엔진마다 해석이 다름)
  • 리다이렉트나 중복 콘텐츠 문제와 함께 고려해야 함

수정 후 확인

  1. robots.txt 파일을 수정했다면 변경사항을 저장
  2. npm run build로 빌드 확인
  3. 공개 URL에서 실제로 파일이 변경되었는지 확인
  4. Search Console에서 robots.txt 테스트 도구로 특정 URL을 테스트

작은 설정 변경도 크롤러 동작에 큰 영향을 주니, 변경 전후로 꼭 확인해야 한다.