웹 개발
robots.txt 설정 확인 순서
검색 엔진 크롤러 차단이나 콘텐츠 노출 문제를 해결하기 위한 robots.txt 설정 확인 방법.
웹사이트를 검색 결과에 올리려면 robots.txt를 제대로 설정해야 한다. 크롤러가 특정 페이지를 못 읽거나, 수집하지 말아야 할 페이지까지 수집되는 경우가 있다. 이런 상황을 해결하기 위해 robots.txt를 어떻게 확인하고 수정하는지 정리했다.
현재 설정 확인
먼저 사이트의 robots.txt가 실제로 공개되어 있는지 확인한다.
curl -I https://example.com/robots.txt
200 응답이 나오면 정상이다. 404가 나오면 파일이 없거나 경로가 잘못됐다.
크롤러 허용 범위 확인
robots.txt의 내용을 확인해서, 현재 어느 경로를 허용하고 어디를 차단하는지 본다.
curl -s https://example.com/robots.txt
일반적인 형식:
Allow: /public- 이 경로는 크롤러에게 공개Disallow: /admin- 이 경로는 크롤러가 접근 불가User-agent: *- 모든 크롤러에게 적용Crawl-delay: 1- 크롤러가 1초 간격으로 요청
Google Search Console에서 확인
Google Search Console에 사이트를 등록하고, "범위" 섹션에서 robots.txt 커버리지를 확인한다. 차단된 페이지들이 의도한 대로인지 검증한다.
발생 가능한 문제
Disallow: /로 설정하면 모든 크롤러가 차단됨Allow규칙이 크롤러에게 무시될 수도 있음 (검색 엔진마다 해석이 다름)- 리다이렉트나 중복 콘텐츠 문제와 함께 고려해야 함
수정 후 확인
- robots.txt 파일을 수정했다면 변경사항을 저장
npm run build로 빌드 확인- 공개 URL에서 실제로 파일이 변경되었는지 확인
- Search Console에서 robots.txt 테스트 도구로 특정 URL을 테스트
작은 설정 변경도 크롤러 동작에 큰 영향을 주니, 변경 전후로 꼭 확인해야 한다.