인덱싱 SEO 101: 웹사이트에 대한 인덱싱 전략을 만드는 방법

게시 됨: 2021-12-14

검색 엔진은 웹사이트의 모든 페이지를 색인화해서는 안 됩니다.

사이트의 모든 것이 환상적이라고 생각하더라도 대부분의 웹 사이트에는 검색 결과에 속하지 않는 수많은 페이지가 있습니다. 검색 엔진이 해당 페이지의 색인을 생성하도록 하면 부정적인 결과에 직면할 수 있습니다.

그렇기 때문에 사이트에 대한 인덱싱 전략 이 필요 합니다. 주요 요소는 다음과 같습니다.

  • 검색 엔진이 인덱싱할 페이지를 결정하고 적절한 방법을 사용하여 인덱싱 가능성을 최대화합니다.
  • 인덱싱하지 않아야 할 페이지와 잠재적 검색 가시성을 제한하지 않고 검색에서 제외하는 방법을 결정합니다.

색인을 생성해야 하거나 색인을 생성하지 않아야 하는 페이지를 결정하는 것은 어렵습니다. 특정 페이지에 대한 몇 가지 지침과 팁을 찾을 수 있지만 종종 혼자가 될 것입니다.

그리고 검색 결과에서 해당 페이지를 제외하는 적절한 방법을 선택하려면 더 많은 고려가 필요합니다. noindex 태그 또는 표준 태그를 사용해야 합니까, robots.txt에서 페이지를 차단해야 합니까, 아니면 영구 리디렉션을 사용해야 합니까?

이 기사에서는 웹사이트에 대한 사용자 지정 인덱싱 전략을 만들 있는 의사 결정 프로세스 를 간략하게 설명합니다.

내가 제안한 논리를 따르지 않는 극단적인 경우에 직면할 수 있지만 아래에 밑줄이 그어진 프로세스는 압도적인 대다수의 경우에 훌륭한 결과를 제공할 것입니다.

내용 숨기기
1 일부 페이지의 색인을 생성하면 안 되는 이유
1.1 크롤링 예산 최적화
1.2 품질이 낮은 콘텐츠가 웹사이트를 손상시키지 않도록 합니다.
2 인덱싱 제어 방법
2.1 Noindex 로봇 메타 태그
2.2 robots.txt의 Disallow 지시문
2.3 정식 태그
2.4 영구 리디렉션
2.5 XML 사이트맵
3 색인을 생성하거나 색인을 생성하지 않아야 하는 페이지를 결정하는 방법
3.1 사용자에게 가치 있는 페이지
3.1.1 색인을 생성해야 하는 사용자에게 중요한 페이지
3.1.1.1 고품질의 고유한 콘텐츠
3.1.1.2 대체 언어 버전
3.1.2 색인을 생성하지 않아야 하는 사용자에게 중요한 페이지
3.1.2.1 다른 페이지의 복제 또는 거의 복제
3.1.2.2 검색 요구가 없는 페이지
3.2 검색 엔진에만 가치가 있는 페이지
3.3 누구에게도 가치가 없는 페이지
4 마무리

일부 페이지의 색인을 생성하면 안 되는 이유

검색 엔진이 모든 페이지의 색인을 생성하는 것을 원하지 않는 두 가지 주요 이유가 있습니다.

  • 크롤링 예산을 최적화하는 데 도움이 됩니다.
  • 인덱싱 가능한 저품질 콘텐츠가 많으면 검색 엔진이 웹사이트를 보는 방식이 손상될 수 있습니다.

크롤링 예산 최적화

검색 엔진 봇은 주어진 웹사이트에서 제한된 수의 페이지를 크롤링할 수 있습니다. 인터넷은 무한히 넓고 모든 것을 크롤링하는 것은 검색 엔진이 가진 자원을 초과할 것입니다.

검색 엔진 봇이 웹사이트를 크롤링하는 데 소비하는 시간과 리소스의 양을 크롤링 예산이라고 합니다. 품질이 낮은 페이지에 크롤링 예산을 낭비하는 경우 실제로 인덱싱해야 하는 가장 가치 있는 페이지에 대한 크롤링 예산이 충분하지 않을 수 있습니다.

색인을 생성할 페이지를 결정하는 데 시간을 들이면 크롤링 예산을 최적화하고 검색 엔진 봇이 덜 중요한 페이지에서 리소스를 낭비하지 않도록 할 수 있습니다.

크롤링 예산 최적화에 대해 자세히 알아보려면 크롤링 예산 최적화에 대한 궁극적인 가이드를 확인하세요.

저품질 콘텐츠가 웹사이트를 손상시키지 않도록 하세요

검색 엔진이 저품질 콘텐츠가 많다는 것을 알게 되면 웹사이트 크롤링을 자주 중단하기로 결정할 수 있습니다.

Tomek Rudzki는 인덱싱 SEO에 대한 궁극적인 가이드에서 이것을 " 집단적 책임 "이라고 불렀 습니다.

이것은 악순환입니다.
  1. Google은 품질이 낮은 페이지를 크롤링합니다.
  2. Google은 웹사이트 방문을 자주 중단합니다.
  3. 많은 페이지가 고품질 페이지라도 Google에서 크롤링하지 않습니다.
  4. 색인이 생성되지 않은 귀중한 페이지가 있습니다.

이는 순위 지정, 크롤링 및 인덱싱이 상호 연결되는 방식을 보여줍니다.

출처: Tomasz Rudzki

인덱싱 제어 방법

다음을 포함하여 페이지 색인 생성을 제어하는 ​​데 사용할 수 있는 다양한 방법이 있습니다.

  • Noindex 로봇 메타 태그,
  • robots.txt의 Disallow 지시문,
  • 정식 태그,
  • 영구 리디렉션,
  • XML 사이트맵.

위의 각 방법에는 고유한 용도와 기능이 있습니다.

Noindex 로봇 메타 태그

 <메타 이름="로봇" 콘텐츠="noindex">

페이지의 HTML <head> 섹션에 위의 지시문을 추가하면 검색 엔진 봇은 색인을 생성하지 않아야 함을 이해합니다. 검색 엔진의 결과 페이지에 페이지가 표시되는 것을 방지합니다.

페이지가 인덱싱되는 것을 원하지 않지만 검색 엔진 봇이 페이지를 크롤링하고 예를 들어 해당 페이지의 링크를 따라가기를 원하는 경우 이 태그를 사용해야 합니다.

robots.txt의 Disallow 지시문

 사용자 에이전트: *
허용하지 않음: /example/page.html

robots.txt 파일의 disallow 지시문을 사용하면 페이지에 대한 검색 엔진의 액세스를 차단할 수 있습니다. 검색 엔진 봇이 지시문을 준수하면 허용되지 않는 페이지를 크롤링하지 않으므로 색인이 생성되지 않습니다.

disallow 지시문은 크롤링을 제한하므로 이 방법을 사용하면 크롤링 예산을 절약할 수 있습니다.

참고: disallow 지시문은 민감한 페이지에 대한 액세스를 차단하는 적절한 방법이 아닙니다. 악성 봇은 robots.txt 파일을 무시하고 콘텐츠에 계속 액세스할 수 있습니다. 일부 페이지에 모든 봇이 액세스할 수 없도록 하려면 비밀번호로 차단하는 것이 좋습니다.

표준 태그

 <link rel="canonical" href="https://www.example.com/page.html">

표준 태그는 검색 엔진에 어떤 중복 URL이 원본인지 알려주는 HTML 요소입니다.

표준 태그를 사용하여 색인을 생성하고 검색 결과에 표시할 페이지 버전을 정확히 지정합니다. 표준 태그가 없으면 색인이 생성되는 페이지 버전을 제어할 수 없습니다.

검색 엔진 봇은 표준 태그를 찾기 위해 여전히 페이지를 크롤링해야 하므로 이를 사용하면 크롤링 예산을 절약하는 데 도움이 되지 않습니다.

영구 리디렉션

301 리디렉션은 영구 리디렉션을 나타내는 HTTP 응답 코드입니다. 요청된 페이지에 새 위치가 있고 이전 페이지가 서버에서 제거되었음을 지정합니다.

301 리디렉션을 사용하면 사용자와 검색 엔진 봇이 이전 URL에 액세스하지 않습니다. 대신 트래픽 및 순위 신호가 새 페이지로 리디렉션됩니다.

301 리디렉션을 사용하면 크롤링 예산을 절약할 수 있습니다. 웹사이트에서 사용 가능한 페이지 수를 줄이고 있으므로 검색 엔진 봇이 크롤링할 콘텐츠가 적습니다.

관련 페이지로만 리디렉션해야 함을 기억하십시오. 관련 없는 페이지로 리디렉션하면 사용자에게 혼란을 줄 수 있습니다. 또한 검색 엔진 봇은 리디렉션을 따르지 않고 페이지를 소프트 404로 취급할 수 있습니다.

XML 사이트맵

XML 사이트맵은 검색 엔진에서 색인을 생성할 URL을 나열하는 텍스트 파일입니다. 그 목적은 검색 엔진 봇이 관심 있는 페이지를 쉽게 찾을 수 있도록 돕는 것입니다.

잘 최적화된 사이트맵 은 검색 엔진을 귀중한 페이지로 안내할 뿐만 아니라 크롤링 예산을 절약하는 데도 도움이 됩니다. 이것이 없으면 봇이 전체 사이트를 크롤링하여 귀중한 콘텐츠를 발견해야 합니다.

그렇기 때문에 사이트맵은 웹사이트에서 색인 생성이 가능한 URL만 나열해야 합니다. 즉, 사이트맵에 넣는 페이지는 다음과 같아야 합니다.

  • 정식,
  • noindex robots 메타 태그에 의해 차단되지 않으며,
  • robots.txt의 disallow 지시문에 의해 차단되지 않음,
  • 200 상태 코드로 응답합니다.

XML 사이트맵에 대한 궁극적인 가이드 에서 사이트맵 최적화에 대해 자세히 알아볼 수 있습니다 .

색인을 생성해야 하거나 색인을 생성하지 않아야 하는 페이지를 결정하는 방법

인덱싱해야 할 페이지와 인덱싱하지 말아야 할 페이지를 결정하는 데 도움이 되도록 답변해야 하는 모든 필수 질문이 포함된 의사 결정 트리를 만들었습니다.

"이 페이지를 색인화해야 하는지"라는 제목의 의사결정 트리

전체 크기로 이미지를 봅니다.

위에서 볼 수 있듯이 근본적인 질문은 이 페이지 가 누구에게나 가치가 있습니까?

해당 질문에 대한 세 가지 가능한 답변이 있습니다.

  • 페이지는 검색 엔진 사용자(및 검색 엔진)에게 가치가 있습니다.
  • 페이지는 검색 엔진에 가치가 있습니다.
  • 페이지는 누구에게도 가치가 없습니다.

결론은 사용자에게 가치 있는 페이지만 인덱싱해야 한다는 것입니다. 그러나 해당 카테고리에도 색인이 생성되지 않아야 하는 페이지 유형이 있습니다.

분해해 봅시다.

사용자에게 가치 있는 페이지

페이지가 검색에 대한 답변을 제공하거나 답변을 탐색할 수 있게 해주는 페이지는 검색 엔진 사용자에게 가치가 있습니다 .  

대부분의 경우 페이지가 사용자에게 가치가 있다면 색인을 생성해야 합니다. 그러나 페이지가 사용자에게 중요하지만 색인이 생성되어서는 안 되는 상황이 여전히 있을 수 있습니다.

색인을 생성해야 하는 사용자에게 중요한 페이지

다음과 같은 경우 페이지의 색인을 생성해야 합니다.

  • 트래픽을 유발하는 고품질의 고유한 콘텐츠를 제공하며,
  • 다른 고품질 페이지(해당되는 경우)의 대체 언어 버전입니다.
고품질의 독창적인 콘텐츠

귀하의 사이트로 트래픽을 유도하는 고품질의 고유한 페이지는 확실히 귀하의 사이트맵에 도달해야 합니다. robots.txt에서 차단하지 않았는지 확인하고 noindex 메타 로봇 ​​태그가 없는지 확인하세요.

귀하의 비즈니스에 가장 가치 있는 페이지에 특히 주의 하십시오 . 그들은 일반적으로 가장 많은 전환을 가져오는 사람들입니다. 다음과 같은 페이지:

  • 홈페이지,
  • 회사 소개 및 연락처 페이지,
  • 귀하가 제공하는 서비스에 대한 정보가 있는 페이지,
  • 귀하의 전문 지식을 보여주는 블로그 기사,
  • 특정 항목(예: 전자 상거래 제품)이 있는 페이지,

항상 색인을 생성할 수 있어야 하며 색인을 정기적으로 모니터링해야 합니다.

대체 언어 버전

번역된 콘텐츠는 검색 엔진에서 중복으로 처리되지 않습니다. 실제로 검색 엔진은 여러 국가의 사용자에게 가장 적합한 버전을 제공할 수 있는 여러 언어 버전이 있는지 알고 싶어합니다.

페이지의 대체 언어 버전이 있는 경우 이를 hreflang 태그 로 지정하고 사이트맵에 페이지를 넣어야 합니다.

사이트맵, HTML 또는 둘 다에 hreflang 태그를 지정할 수 있습니다. 사이트맵에 사용되는 Hreflang 태그는 검색 엔진 관점에서 완벽하게 좋습니다. 그러나 SEO 도구 또는 브라우저 플러그인으로 확인하기 어려울 수 있습니다. 따라서 태그를 추가하는 권장 방법은 HTML 코드와 사이트맵 또는 HTML 코드에만 있습니다.

각 페이지 는 자체 언어를 포함하여 모든 언어 버전을 지정해야 합니다.

색인을 생성하지 않아야 하는 사용자에게 중요한 페이지

어떤 상황에서는 페이지가 사용자에게 가치가 있을 수 있지만 여전히 색인이 생성되어서는 안 됩니다. 상황은 다음과 같습니다.

  • 중복되거나 거의 중복되는 콘텐츠,
  • 검색 수요가 없는 페이지.
다른 페이지의 중복 또는 거의 중복

검색 엔진 봇은 다음과 같은 경우 페이지 중복 또는 거의 중복으로 간주할 수 있습니다.

  • 두 개 이상의 다른 URL이 동일한 페이지로 연결되고,
  • 두 개의 다른 페이지에 매우 유사한 내용이 있습니다.

중복 콘텐츠의 가장 일반적인 예 중 하나는 전자 상거래 사이트의 필터링된 카테고리 페이지입니다. 사용자는 필터를 적용하여 제품의 범위를 좁히고 원하는 것을 더 빨리 찾을 수 있습니다. 안타깝게도 적용된 각 필터는 매개변수를 URL에 저장하여 동일한 페이지로 연결되는 여러 URL을 생성할 수 있습니다.

예를 들어 store.com/dresses/item 및 store.com/dresses/item?color=yellow는 동일한 콘텐츠를 가리킬 수 있습니다.

콘텐츠가 중복되거나 거의 중복되는 다른 이유는 다음과 같습니다.

  • 모바일 버전과 데스크톱 버전의 URL이 다르면
  • 웹사이트의 인쇄 버전이 있거나
  • 실수로 중복 콘텐츠를 생성합니다.

인덱싱 가능한 중복 콘텐츠의 위험은 다음과 같습니다.

  • 검색 결과에 나타날 수 있는 버전을 제어할 수 없습니다. 예를 들어 사용 가능한 인쇄 버전과 일반 버전이 있는 경우 검색 엔진이 검색에 인쇄 버전을 표시할 수 있습니다.
  • 여러 URL 간에 순위 신호를 나눕니다.
  • 검색 엔진이 크롤링해야 하는 URL의 수가 급격히 증가합니다.
  • 검색 엔진이 순위를 조작하기로 결정한 경우 SERP에서 위치를 낮춥니다(드문 결과).

콘텐츠 중복으로 인한 부정적인 결과를 방지하려면 콘텐츠를 통합 하는 것을 목표로 해야 합니다. 이를 수행하는 주요 방법에는 표준 태그와 301 리디렉션이 포함됩니다.

사용자가 모든 페이지를 사용할 수 있어야 하는 경우 표준 태그 가 가장 좋습니다.

사이트에서 계속 사용할 수 있어야 하는 중복 콘텐츠의 예는 사용자 경험을 개선하는 것입니다. 예를 들어 사용자가 전자 상거래 사이트에서 제품을 필터링할 때 이동 경로의 갑작스러운 변경과 같은 여러 가지 이유로 제품을 리디렉션하면 혼란스러울 수 있습니다.

또한 다른 장치에 대해 다른 버전이 있는 경우 사이트에 중복 콘텐츠가 있어야 할 수도 있습니다.

301 리디렉션 을 사용하면 사이트에서 페이지 중 하나만 사용할 수 있습니다. 나머지는 자동으로 리디렉션됩니다.

301 리디렉션은 예를 들어 매우 유사한 두 개의 블로그 게시물이 있고 하나만 사이트에 남겨야 한다고 결정할 때 유용할 수 있습니다. 301 상태 코드는 트래픽 및 순위 신호를 선택한 기사로 리디렉션합니다. 크롤링 예산을 최적화하는 훌륭한 방법이지만 중복 페이지를 제거하려는 경우에만 사용할 수 있습니다.

영구 리디렉션을 사용할 때마다 사이트맵을 변경해야 합니다. 사이트맵에는 200개의 상태 코드로 응답하는 페이지만 넣어야 합니다. 따라서 301 리디렉션을 사용하여 콘텐츠를 통합하는 경우 웹사이트에 남아 있는 버전만 사이트맵에 남아 있어야 합니다.

검색 수요가 없는 페이지

사이트에 검색 수요가 없는 좋은 콘텐츠가 있을 수 있습니다. 즉, 아무도 그것을 찾지 않습니다. 이것은 틈새 취미에 대해 글을 쓰고 있거나 사용자에 대한 "감사합니다"와 같은 메모가 있는 페이지가 있을 때 발생할 수 있습니다.

이러한 페이지는 트래픽이나 전환을 가져오지 않을 수 있습니다. 아마도 사용자의 여정을 보완하기 때문에 떠나고 싶지만 사용자가 검색 결과에서 가장 먼저 보게 되는 것은 원하지 않을 것입니다.

사용자가 검색 결과에서 특정 페이지를 볼 필요가 없다고 생각하거나 페이지에서 트래픽이 발생하지 않는 경우 색인을 유지할 필요가 없습니다. 이렇게 하면 검색 엔진 봇이 실제로 트래픽을 발생시키는 페이지에 집중할 수 있습니다.

검색 수요가 없는 페이지의 인덱싱을 차단하려면 noindex 메타 로봇 ​​태그를 사용하세요. 봇은 색인을 생성하지 않지만 여전히 크롤링하고 해당 페이지의 링크를 따라가므로 웹사이트에 대한 더 많은 정보를 제공합니다.

검색 엔진에만 가치가 있는 페이지

모든 페이지가 사용자를 돕기 위한 것은 아닙니다. 그들 중 일부는 검색 엔진이 귀하의 웹사이트에 대해 배우고 링크를 발견하는 데 도움이 됩니다.

LinkedIn 페이지 를 살펴보십시오 .

프로필 목록이 있는 LinkedIn 페이지의 스크린샷

그것은 모든 사용자의 프로필을 나열하여 검색 엔진이 모든 링크를 쉽게 찾을 수 있도록 합니다.

한편으로 이러한 페이지는 사용자를 혼란스럽게 만들고 사이트에 머무르는 것을 방해할 수 있습니다. 그것들은 그들에게 가치가 없으므로 검색 결과에 나타나지 않아야 하고 색인이 생성되어서도 안 됩니다.

반면에 검색 엔진에 유용합니다. 내부 연결을 강화합니다.

그렇기 때문에 최고의 솔루션은 noindex 메타 로봇 ​​태그를 구현하고 이러한 페이지를 사이트맵에서 제외하고 robots.txt에서 크롤링을 허용하는 것입니다. 색인이 생성되지는 않지만 봇이 크롤링합니다.

누구에게도 가치가 없는 페이지

일부 페이지는 사용자나 검색 엔진에 가치가 없습니다.

그 중 일부는 개인 정보 보호 정책과 같이 법에 따라 귀하의 사이트에 존재해야 하지만 솔직히 말해서 아무도 이러한 유형의 콘텐츠를 검색하지 않습니다. 물론 제거할 수는 없지만 아무도 찾지 않기 때문에 인덱싱할 필요는 없습니다. 어떤 경우에는 더 가치 있는 콘텐츠보다 순위가 높아 트래픽을 "도용"할 수 있습니다.

가치가 없는 페이지에는 얇고 품질이 낮은 콘텐츠도 포함됩니다. 사용자와 검색 엔진이 사이트의 전반적인 품질을 인식하는 방식을 손상시킬 수 있으므로 특히 주의해야 합니다. 자세한 내용은 저품질 콘텐츠로 인해 웹사이트가 손상될 수 있음 장을 참조하십시오.

가장 중요한 것은 값이 없는 페이지에 noindex 메타 로봇 ​​태그가 있는지 확인해야 한다는 것입니다. 색인 생성을 차단하지 않으면 순위에 영향을 미치고 사용자가 웹사이트를 방문하지 못하게 할 수 있습니다.

또한 크롤링 예산을 최적화하려면 robots.txt 파일에서 이러한 페이지를 차단하고 해당 페이지를 가리키는 내부 링크를 제거하십시오. 이렇게 하면 더 가치 있는 페이지에 대한 크롤링 예산을 절약할 수 있습니다.

마무리

색인을 생성해야 하는 페이지와 색인을 생성하지 않아야 하는 페이지를 파악하고 이를 검색 엔진 봇에 전달하는 것은 건전한 색인 전략을 수립하는 데 매우 중요합니다.

웹사이트가 제대로 크롤링되고 색인이 생성될 가능성을 최대화하고 사용자가 검색 결과에서 중요한 모든 콘텐츠를 찾을 수 있도록 합니다.

다음은 인덱싱 전략을 수립할 때 염두에 두어야 할 핵심 사항입니다.

  • 페이지의 색인을 생성할지 여부를 결정할 때 사용자에게 가치가 있는 고유한 콘텐츠가 있는지 자문해 보십시오. 고유하고 가치 있는 페이지는 noindex 메타 로봇 ​​태그에 의해 색인이 생성되는 것을 차단하거나 robots.txt disallow 지시문을 사용하여 크롤링하는 것을 차단해서는 안 됩니다.
  • 저품질 콘텐츠의 색인을 생성할 수 있는 경우 순위에 부정적인 영향을 미치고 귀중한 페이지가 색인이 생성되지 않을 위험이 있습니다.
  • 사이트에 중복되거나 거의 중복에 가까운 콘텐츠가 있는 경우 표준 태그 또는 301 리디렉션으로 이를 통합해야 합니다.
  • 페이지에 검색 수요가 없으면 색인을 생성할 필요가 없습니다. 메타 로봇 ​​태그에서 noindex를 사용하세요.
  • 검색 엔진에만 가치가 있는 콘텐츠 또는 링크가 포함된 페이지는 noindex 메타 로봇 ​​태그를 사용하여 색인 생성을 차단해야 하지만 robots.txt에서 크롤링되는 것을 차단해서는 안 됩니다.
  • 사용자와 검색 엔진 모두 주어진 페이지를 방문하여 이점을 얻지 못하는 경우 메타 로봇 ​​태그에서 noindex로 설정해야 합니다.
  • 동일한 페이지의 대체 언어 버전이 여러 개 있는 경우 색인을 생성할 수 있도록 유지하십시오. hreflang 태그를 사용하여 검색 엔진이 이러한 페이지가 어떻게 관련되어 있는지 이해하도록 돕습니다.