웹 개발

robots.txt를 수정하고도 검색 노출이 그대로였던 실수들

robots.txt와 sitemap을 손본 뒤 검색 결과가 바로 바뀌지 않아 확인했던 실수 목록이다.

2026년 7월 4일·1분 읽기

바로 반영될 거라고 착각했다

검색에 노출되면 안 되는 테스트 경로가 보여서 robots.txt를 수정한 적이 있다. 파일을 바꾸고 배포까지 했는데 검색 결과는 그대로였다. 그때는 설정이 틀렸다고만 생각했지만, 실제로는 여러 가지를 한꺼번에 오해하고 있었다.

서버에서는 새 파일이 나가는데 내 브라우저는 예전 응답을 보여 주고 있었다. 확인은 브라우저보다 curl이 빨랐다.

curl -i https://example.com/robots.txt
curl -i https://example.com/sitemap.xml

응답 헤더의 cache-control도 같이 봤다. 정적 파일 캐시를 길게 잡아 둔 상태라면 배포 후에도 중간 캐시가 남아 있을 수 있다.

robots.txt는 크롤링 규칙에 가깝고, 이미 검색엔진이 알고 있는 URL을 즉시 지워 주는 버튼은 아니다. 급하게 내려야 하는 페이지라면 페이지 자체에 noindex를 넣거나 검색 콘솔의 삭제 도구를 함께 봐야 한다.

예를 들어 Next.js에서 특정 페이지를 색인 제외하려면 메타데이터를 명확히 둔다.

export const metadata = {
  robots: {
    index: false,
    follow: false,
  },
}

막고 싶은 URL을 robots.txt에서는 막아 놓고, sitemap.xml에는 그대로 넣어 둔 적도 있었다. 신호가 서로 다르면 디버깅이 어려워진다.

내 기준은 이렇게 정했다.

검색 노출 문제는 버튼 하나로 끝나지 않았다. 파일, 메타 태그, sitemap, 캐시를 나눠서 봐야 원인을 빨리 좁힐 수 있었다.