색인이 생성되었지만 Robots.txt에 의해 차단됨: 알아야 할 모든 것

게시 됨: 2021-07-01

웹사이트에 Google이 색인을 생성했지만 크롤링할 수 없는 페이지가 있는 경우 Google Search Console(GSC)에 "Indexed, But Blocked by Robots.txt" 메시지가 표시됩니다.

Google은 이러한 페이지를 볼 수 있지만 대상 키워드에 대한 검색 엔진 결과 페이지의 일부로 표시하지 않습니다.

이 경우 해당 페이지에 대한 유기적 트래픽을 얻을 수 있는 기회를 놓치게 됩니다.

이는 이 문제가 발생하기 위해 수천 명의 월간 자연 방문자를 생성하는 페이지에 특히 중요합니다.

이 시점에서 이 오류 메시지에 대해 많은 질문이 있을 것입니다. 왜 받았습니까? 어떻게이 일이 일어 났어요? 그리고 더 중요한 것은 이미 순위가 높은 페이지에 이런 일이 발생한 경우 어떻게 수정하고 트래픽을 복구할 수 있는지입니다.

이 게시물은 이러한 모든 질문에 답하고 사이트에서 이 문제가 다시 발생하지 않도록 하는 방법을 보여줍니다.

사이트에 이 문제가 있는지 확인하는 방법

일반적으로 사이트의 "색인 적용 범위 문제"를 알리는 이메일을 Google에서 받아야 합니다. 이메일은 다음과 같습니다.

구글 인덱스 커버리지 문제

이메일은 영향을 받는 페이지 또는 URL이 정확히 무엇인지 지정하지 않습니다. 자신을 찾으려면 Google Search Console에 로그인해야 합니다.

이메일을 받지 못한 경우에도 이메일을 확인하여 사이트가 최상의 상태인지 확인하는 것이 가장 좋습니다.

GSC에 로그인하면 Index 아래의 Coverage를 클릭하여 Index Coverage Report로 이동합니다. 그런 다음 다음 페이지에서 아래로 스크롤하여 GSC에서 보고하는 문제를 확인합니다.

인덱스 커버리지 보고서 GSC

"인덱싱됨, robots.txt에 의해 차단됨"은 "경고 있음" 아래에 레이블이 지정됩니다. 즉, URL 자체에는 문제가 없지만 검색 엔진은 검색 엔진 결과에 페이지를 표시하지 않습니다.

귀하의 사이트에 이 문제가 있는 이유(및 해결 방법)는 무엇입니까?

솔루션에 대한 생각을 시작하기 전에 먼저 색인 생성해야 하고 검색 결과에 나타나야 하는 페이지를 알아야 합니다.

GSC에서 "색인이 생성되었지만 robots.txt에 의해 차단됨" 문제와 함께 표시되는 URL이 사이트로 유기적 트래픽을 유도하기 위한 것이 아닐 수 있습니다. 예를 들어 유료 광고 캠페인의 방문 페이지입니다. 따라서 페이지를 수정하는 데 시간과 노력이 들지 않을 수 있습니다.

일부 페이지에 이 문제가 있는 이유와 해결해야 하는지 여부는 다음과 같습니다.

페이지 HTML의 Robots.txt Noindex 메타 태그에 대한 규칙을 허용하지 않음

이 문제가 발생하는 가장 일반적인 이유는 귀하 또는 귀하의 사이트를 관리하는 누군가가 사이트의 robots.txt에서 특정 URL에 대해 Disallow 규칙을 활성화하고 동일한 URL에 noindex 메타 태그를 추가한 경우입니다.

먼저 사이트 소유자는 robots.txt를 사용하여 검색 엔진 크롤러에게 사이트 URL을 처리하는 방법을 알립니다. 이 경우 웹사이트의 robots.txt에서 사이트의 페이지 및 폴더에 대한 허용 안 함 규칙을 추가했습니다.

사이트의 robots.txt 파일을 열면 다음과 같이 표시될 수 있습니다.

사용자 에이전트: * 허용하지 않음: /

위의 예에서 이 코드 줄은 모든 웹 크롤러(*)가 홈페이지(/)를 포함하는 사이트 페이지(허용 안 함)를 크롤링하지 못하도록 합니다. 결과적으로 모든 검색 엔진은 사이트 페이지를 크롤링하거나 색인을 생성하지 않습니다.

robots.txt를 편집하여 웹 크롤러(Googlebot, msnbot, magpie-crawler 등)를 선택하고 크롤러가 터치하지 않기를 원하는 페이지(/page1, /page2, /page3 등)를 지정할 수 있습니다. ).

그러나 서버에 대한 루트 액세스 권한이 없는 경우 검색 엔진 봇이 noindex 태그를 사용하여 사이트 페이지를 인덱싱하는 것을 방지할 수 있습니다.

이 방법은 robots.txt에 대한 허용 안 함 규칙과 동일한 효과가 있습니다. 그러나 SERP에 표시되지 않도록 하려는 robots.txt 파일에 사이트의 여러 페이지와 폴더를 나열하는 대신 원하지 않는 사이트의 각 페이지에 noindex 메타 태그를 입력해야 합니다. 검색 결과에 표시됩니다.

이것은 이전 방법보다 훨씬 더 많은 시간이 소요되는 프로세스이지만 차단할 URL에 대해 더 세분화된 제어를 제공합니다. 이것은 또한 귀하의 오류 마진이 더 낮다는 것을 의미합니다.

수정: GSC의 문제는 사이트의 페이지에 robots.txt 파일과 noindex 태그에 대한 금지 규칙이 있을 때 발생합니다.

검색 엔진이 페이지의 색인을 생성할지 여부를 알기 위해서는 사이트에서 페이지를 크롤링할 수 있어야 합니다. 그러나 robots.txt를 통해 검색 엔진이 그렇게 하지 못하도록 하면 해당 페이지로 무엇을 해야 하는지 알 수 없습니다.

robots.txt와 noindex 태그를 사용하여 서로 경쟁하지 않고 보완함으로써 사이트는 검색 엔진 봇이 페이지를 처리할 때 따라야 하는 훨씬 더 명확하고 직접적인 규칙을 갖게 됩니다.

이렇게 하려면 robots.txt 파일을 편집해야 합니다. WordPress 사이트 소유자의 경우 Yoast SEO 또는 Rank Math와 같은 robots.txt 편집기와 함께 SEO 플러그인을 사용하는 것이 가장 편리합니다.

순위 수학 편집 robots.txt

robots.txt에 쓸 수 없는 경우 호스팅 제공업체에 연락하여 파일 및 폴더에 대한 권한을 변경해야 합니다.

또 다른 방법은 FTP 클라이언트 또는 호스팅 제공업체의 파일 관리자에 로그인하는 것입니다. 이것은 무엇보다도 파일을 편집하는 방법을 완전히 제어할 수 있기 때문에 개발자들 사이에서 선호되는 방법입니다.

잘못된 URL 형식

엄밀한 의미에서 실제로 "페이지"가 ​​아닌 사이트의 URL은 "인덱싱되지만 robots.txt에 의해 차단됨" 메시지를 수신할 수 있습니다.

예를 들어 https://example.com?s=what+is+seo는 "seo란 무엇인가"라는 검색어에 대한 검색 결과를 보여주는 사이트의 페이지입니다. 이 URL은 사이트 전체에서 검색 기능이 활성화된 WordPress 사이트에서 널리 사용됩니다.

수정: 일반적으로 URL이 무해하고 검색 트래픽에 심각한 영향을 미치지 않는다고 가정하면 이 문제를 해결할 필요가 없습니다.

색인 생성을 원하지 않는 페이지에 내부 링크가 있습니다.

색인 생성을 원하지 않는 페이지에 noindex 태그가 있더라도 Google은 해당 태그를 규칙 대신 제안으로 취급할 수 있습니다. 이는 검색 엔진이 크롤링하고 색인을 생성하는 사이트의 페이지에서 noindex 지시문 또는 금지 규칙이 있는 페이지에 링크할 때 분명합니다.

따라서 원하지 않는 경우에도 SERP에 이러한 페이지가 표시될 수 있습니다.

수정 : 이 특정 페이지를 가리키는 링크를 제거하고 대신 유사한 페이지로 연결해야 합니다.

이렇게 하려면 차단된 페이지로 연결되는 페이지를 식별하기 위해 Screaming Frog(URL이 500개 있는 웹사이트의 경우 무료) 또는 Ahrefs Webmaster Tools(훨씬 더 나은 무료 대안)와 같은 도구를 사용하여 SEO 감사를 실행하여 내부 링크를 식별해야 합니다.

Ahrefs를 사용하여 감사 실행 후 보고서 > 내부 페이지로 이동합니다. 웹 크롤러에서 차단하고 색인을 생성하지 않은 페이지를 찾고 인링크 수 열에서 해당 페이지에 링크되는 페이지를 확인하십시오.

ahrefs 사이트 감사 내부 페이지

여기에서 이 페이지의 링크를 한 번에 하나씩 편집하십시오. 또는 noindex 태그가 있는 페이지 링크로 대체할 수 있습니다.

리디렉션 체인 가리키기

사이트의 링크가 끝없는 리디렉션 스트림을 가리키는 경우 Googlebot은 페이지의 실제 URL을 찾기 전에 각 링크를 통과하는 것을 중지합니다.

이러한 리디렉션 체인은 더 ​​큰 SEO 문제를 일으킬 수 있는 중복된 콘텐츠 문제를 일으킬 수도 있습니다. 이 문제를 해결하는 유일한 방법은 표준 태그로 선호하는 표준 페이지를 식별하여 Google에서 크롤링하고 색인을 생성해야 하는 페이지를 알 수 있도록 하는 것입니다.

또한 표준 페이지 대신 리디렉션에 대한 링크가 크롤링 예산을 사용한다는 점을 고려하십시오. 리디렉션 링크가 여러 리디렉션을 가리키는 경우 사이트에서 중요한 페이지에서 크롤링 예산을 사용할 수 없습니다. 가장 중요한 페이지에 도달하면 Google은 일정 기간이 지나면 해당 페이지를 제대로 크롤링하고 색인을 생성할 수 없습니다.

수정: 사이트에서 리디렉션 링크를 제거하고 대신 표준 페이지로 연결합니다.

Ahrefs 웹마스터 도구를 다시 사용하면 도구 > 링크 탐색기 페이지에서 리디렉션 링크를 볼 수 있습니다. 그런 다음 사이트의 리디렉션 링크만 표시하도록 결과를 필터링합니다.

ahrefs 링크 탐색기

결과에서 무한 리디렉션 체인을 형성하는 링크를 식별합니다. 그런 다음 리디렉션에 연결되는 각 페이지가 연결되어야 하는 올바른 페이지를 찾아 사슬을 끊습니다.

이 문제를 해결한 후 수행할 작업

"색인이 생성되었지만 Robots.txt에 의해 차단됨" 문제가 있는 중요한 페이지에 위의 솔루션을 구현한 후에는 Google Search Console에서 해결된 것으로 표시할 수 있도록 변경 사항을 확인해야 합니다.

GSC의 Index Coverage Report로 돌아가서 해결한 이 문제에 대한 링크를 클릭하십시오. 다음 화면에서 수정 확인 버튼을 클릭합니다.

검색 콘솔 확인 수정 버튼

페이지에 더 이상 문제가 없는지 확인하도록 Google에 요청합니다.

결론

Google Search Console에서 다루지 않은 다른 문제와 달리 "색인이 생성되었지만 robots.txt에 의해 차단됨"은 버킷의 드롭처럼 보일 수 있습니다. 그러나 이러한 하락은 유기적 트래픽을 생성하지 못하게 하는 전체 사이트에 대한 급류의 문제로 누적될 수 있습니다.

가장 중요한 페이지에서 문제를 해결하는 방법에 대한 위의 가이드라인을 따르면 Google이 제대로 크롤링하고 색인을 생성할 수 있도록 웹사이트를 최적화하여 귀중한 트래픽이 손실되는 것을 방지할 수 있습니다.