사이트맵에서 피해야 할 5가지 실수
게시 됨: 2022-03-15Google은 특정 사이트의 몇 페이지가 Google에서 색인이 생성되는지 확인할 수 있는 도구를 만들었습니다 .
지금까지 수백 개의 웹사이트를 확인했으며 이 도구는 크롤링 예산 및 인덱싱과 관련된 문제와 같이 고객이 처리하고 있던 SEO 문제를 진단하는 데 도움이 되었습니다.
이러한 문제를 조사할 때 데이터 이상 현상이 자주 발생 하고 사이트맵에 심각한 오류가 있는 많은 웹사이트를 봅니다.
이것이 귀하의 웹사이트에 어떤 영향을 미칠 수 있습니까?
사이트맵이 제대로 구현되지 않으면 Googlebot이 품질이 낮은 URL을 크롤링하는 데 많은 시간을 할애할 수 있으므로 크롤링 예산이 낭비됩니다. 결과적으로 웹사이트에 있는 많은 가치 있는 URL이 Google에서 색인이 생성되지 않을 수 있습니다 . 이는 이를 크롤링할 리소스가 충분하지 않기 때문입니다.
인기 있는 웹사이트는 사이트맵에서 어떤 실수를 하고 있으며 Google이 관련 없는 콘텐츠에 크롤링 예산을 낭비하지 않도록 방지하려면 어떻게 해야 합니까?
파헤쳐 봅시다.
크롤링 예산은 얼마입니까?
먼저 크롤링 예산 이 무엇이고 웹사이트 색인 생성과 정확히 얼마나 관련이 있는지 설명하겠습니다 .
Google은 많은 콘텐츠를 크롤링할 수 있지만 리소스가 무한하지 않으므로 보유한 리소스로 선택해야 합니다.
이것이 Googlebot이 모든 웹사이트에 대한 크롤링 예산(크롤링할 수 있고 크롤링하려는 URL의 수)을 정의하는 이유입니다.
사이트의 크롤링 예산은 다음 두 가지 측정항목 에 따라 달라집니다 .
- 크롤링 용량 제한 – 서버 제한을 초과하지 않고 웹 사이트의 모든 중요한 콘텐츠를 크롤링하도록 계산됨
- 크롤링 수요 – 웹사이트의 크기, 인기도 및 업데이트 빈도에 따라 결정됩니다.
사이트 속도가 느려지거나 서버 오류로 응답하면 제한이 줄어들고 Googlebot이 덜 크롤링합니다.출처: 구글 문서
Googlebot의 제한된 기능으로 인해 Googlebot이 웹사이트에서 크롤링할 URL을 계획해야 합니다.
크롤링되는 URL을 조정하는 핵심은 Google 문서에 설명되어 있습니다.
URL 인벤토리 관리: 적절한 도구를 사용하여 크롤링할 페이지와 크롤링하지 않을 페이지를 Google에 알립니다. Google이 색인에 적합하지 않은 URL을 크롤링하는 데 너무 많은 시간을 할애하면 Googlebot은 사이트의 나머지 부분을 살펴볼 가치가 없다고 결정할 수 있습니다.출처: 구글 문서
요약하자면, 우리가 지금까지 알고 있는 내용은 다음과 같습니다.
- 웹사이트가 느리면 Google에서 더 적은 수의 URL을 크롤링할 수 있으므로 더 적은 수의 URL이 Google 색인에 포함될 수 있습니다.
- Google이 사이트를 크롤링할 때 품질이 낮은 URL을 많이 발견할 수 있으면 사이트의 전반적인 품질이 낮다고 결정할 수 있습니다.
다음은 중요한 정보입니다.
Google이 크롤링할 수 있는 저품질 URL이 많기 때문에 Googlebot은 크롤링하는 데 많은 시간을 할애할 수 있으며 웹사이트에서 많은 고품질 URL을 크롤링하지 못할 수 있습니다.
트래픽을 유치하기 위해 자주 그리고 광범위하게 크롤링해야 하기 때문에 대규모 또는 빠르게 변화하는 웹 사이트에 가장 큰 비중을 차지합니다.
크롤링 예산에 사이트맵이 얼마나 중요한가요?
앞서 설명했듯이 크롤링 예산을 최적화하는 것은 사이트 색인 생성에 있어 매우 중요한 단계입니다.
URL 인벤토리 를 관리하는 방법 중 하나는 최적화된 사이트맵 을 만들고 유지하는 것입니다.
사이트맵 은 사이트의 페이지, 비디오 및 기타 파일에 대한 정보와 이들 간의 관계를 제공하는 파일입니다 [...]. 사이트맵은 사이트에서 중요하다고 생각하는 페이지와 파일을 Google에 알리고 이러한 파일에 대한 중요한 정보도 제공합니다. 예를 들어 페이지가 마지막으로 업데이트된 시간과 페이지의 대체 언어 버전이 있습니다.출처: 구글 문서
그러나 수많은 웹사이트가 최적화된 사이트맵을 생성하지 못합니다. 다행히도 우리는 그들의 실수에서 배울 수 있습니다.
사이트맵에서 피해야 할 실수는 무엇입니까?
나는 많은 인기 있는 사이트 를 분석했고 많은 사이트맵에서 크롤링 예산에 부정적인 영향을 미치는 실수를 하여 색인 범위에 문제가 발생할 수 있음을 발견했습니다.
다음은 사이트맵을 만들 때 피해야 할 실수에 대한 분석입니다.
형식이 잘못된 URL 제출
내가 발견한 실수 중 하나는 사이트맵의 URL 구조와 관련된 것입니다.
구체적인 예를 보면서 분석해 보자.
Whisky.de
우리 소프트웨어에서 수집한 통계를 보고 깜짝 놀랐습니다. 사이트맵에 제출된 위스키 페이지 중 0%가 Google에서 색인이 생성된 것으로 나타났습니다.
나는 이것이 사실이 아니라는 것을 알고 있었기 때문에 데이터를 더 조사했습니다.
위스키.de 사이트맵 에 있는 대부분의 URL 이 유효한 것으로 보입니다.
- 그들은 정식이었고,
- 그들은 noindex robots 메타 태그에 의해 차단되지 않았습니다.
- robots.txt의 disallow 지시문에 의해 차단되지 않았습니다.
- 그들은 200 상태 코드로 응답했습니다.
하지만 모든 URL에 최상위 도메인 뒤에 이중 슬래시가 있음을 확인했습니다. 이 샘플을 살펴보세요.
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/fasstypen/whisky-in-marsala-weinfaessern.html
- https://www.whisky.de//wissen/herstellung/hintergrundwissen/jim-beam-fassfabrik.html
- https://www.whisky.de//presse/pressespiegel/playboy.html
이중 슬래시는 사이트맵을 생성하는 동안 명백한 프로그래밍 오류와 수정하기 쉬운 오류처럼 보입니다.

그러나 사이트맵에 포함된 페이지에는 슬래시 하나가 있는 올바른 버전인 각 URL을 가리키는 표준 태그가 있습니다.
결과적으로 Google은 단일 슬래시와 이중 슬래시가 있는 URL 을 의도한 것보다 두 배 더 많은 URL을 방문할 가능성이 매우 높습니다 .
Google은 URL에서 잘못된 패턴을 찾아내는 메커니즘을 가지고 있으며 기술적으로 말하면 Google이 실수를 발견했을 가능성이 있습니다. 따라서 이에 따라 위스키.de를 크롤링하고 올바르게 구조화된 URL을 인덱싱할 수 있습니다. 하지만 웹사이트의 Google Search Console 계정이나 서버 로그에 액세스하지 않고는 이를 확인할 수 있는 방법이 없습니다.
실제로 실수를 수정하기 위해 Google의 알고리즘에 의존해서는 안 됩니다 . 제가 설명한 것과 같은 방식은 크롤링 예산에 부담을 줄 수 있고 페이지를 Google 색인에서 제외할 수도 있습니다.
씬 콘텐츠 URL 제출
사이트맵에 얇은 콘텐츠 페이지 를 포함하는 웹사이트가 많이 있습니다.
예를 보여드리겠습니다.
앤테일러
나는 이 실수를 여성 의류의 최고 등급 매장인 AnnTaylor.com에서 발견했습니다.
Google에서 얼마나 많은 제품 카테고리가 색인화되었는지 확인하고 싶었기 때문에 카테고리 페이지 전용 사이트맵을 조사했습니다.
초기 확인 결과 카테고리 페이지의 46%만 Google에서 색인이 생성된 것으로 나타났습니다.
그래서 좀 더 자세히 살펴보니 대부분의 카테고리 페이지가 소프트 404라는 것을 알게 되었습니다.
특히 이 페이지에는 다음 메시지가 표시되었습니다.

Google이 색인을 생성하지 않으려는 것은 놀라운 일이 아닙니다!
다음 논리적 단계는 샘플에서 소프트 404를 제외하는 것이었습니다. 이를 위해 동일한 사이트맵의 인덱싱 상태를 확인했지만 위 이미지와 같이 '멋지게 검색했는데 운이 없다'는 문구가 포함된 페이지를 제외하는 트리거를 사용했습니다.
소프트 404 URL을 제외하고 나면 해당 카테고리 사이트맵 페이지의 82%가 인덱싱되는 것으로 나타났습니다.
그럼에도 불구하고 카테고리 페이지의 18%는 Google에서 색인이 생성되지 않습니다 . 바로 이것이 그들의 SEO가 조사에 집중해야 하는 부분입니다.
AnnTaylor의 상황은 다음과 같은 이유로 심각합니다.
- 우선 Google은 씬 콘텐츠를 크롤링하는 데 크롤링 예산을 낭비하고 있습니다.
- 또한 Google이 페이지, 섹션 및 사이트 전체의 세 가지 수준에서 품질을 판단한다는 것은 신비한 일이 아닙니다. Google은 일반적으로 카테고리 페이지의 품질이 낮고 모든 페이지의 색인이 제거될 수 있다고 결정할 수 있습니다 . 과거 에는 내 기사 중 하나에서 설명한 것처럼 Giphy, Instagram 또는 Pinterest와 같은 웹 사이트에서 발생했습니다 . AnnTaylor에게 그런 일이 일어나지 않기를 바랍니다.
중요한 URL 건너뛰기
이미 언급했듯이 사이트맵은 Google이 웹사이트를 더 잘 이해하고 더 지능적으로 크롤링하는 데 도움이 됩니다.
그러나 많은 웹사이트에서 가장 가치 있는 URL을 사이트맵에 포함하지 않는 것으로 나타났습니다.
여기 한 가지 예가 있습니다.
굿리즈
GoodReads 에 대한 일반 샘플( sitemaps 의 모든 URL에서 가져옴)을 확인하고 그 중 35%만 인덱싱되었음을 알았습니다.
나는 그것이 매우 고품질의 웹 사이트라는 것을 알고 매우 놀랐습니다. 나는 리뷰를 읽고 특정 책이 읽을 가치가 있는지 알아보기 위해 GoodReads를 방문하는 유일한 사람이 아니라는 것을 알고 있습니다.
그런 다음 우리가 확인한 샘플에 책이 포함된 URL이 없는 것을 보았습니다. 그래서 나는 그들의 모든 사이트맵을 다운로드하기로 결정했습니다.
결과: 사이트맵에 책이 있는 URL이 없습니다.
왜 나쁜 징조입니까?
Google이 사이트맵에서 찾은 URL을 우선적으로 처리하고 어떻게든 제품 페이지 방문을 건너뛸 위험이 있습니다.
면책 조항: GoodReads는 당사 고객이 아닙니다. 따라서 기술적으로 말하면 Google Search Console에 비공개 사이트맵을 제출했을 수 있습니다.
<lastmod> 매개변수 남용
사이트맵 파일에 포함할 수 있는 매개변수 중 하나는 페이지가 마지막으로 업데이트된 시간을 지정하는 <lastmod>입니다. 이렇게 하면 Google에서 최근에 변경된 URL을 쉽게 선택할 수 있습니다.
그러나 일부 웹 사이트는 이 기술을 남용합니다. Google 가이드라인 에서 읽은 것처럼 " Google은 일관되고 검증 가능하게(예: 페이지의 마지막 수정 사항과 비교하여) 정확한 경우 <lastmod> 값을 사용합니다."
<lastmod> 매개변수를 남용하는 사이트의 예를 살펴보겠습니다.
에이본
나는 Avon의 제품 사이트맵 을 보았고 나열된 모든 URL에는 동일한 <lastmod> 매개변수(현재 날짜)가 있습니다.

Avon의 모든 URL이 매일 변경되는 것은 아니므 로 Google은 페이지 색인 생성을 꺼립니다.
사이트맵 내에서 스테이징 환경에 연결
Google이 스테이징 URL을 색인화하는 것은 매우 일반적입니다.
Google이 그러한 페이지에 대한 링크를 찾는 방법은 일반적으로 미스터리입니다. 그러나 일반적인 설명은 이러한 URL이 사이트맵에서 직접 연결된다는 것입니다.
Acehardware.com
acehardware.com은 이후 사이트맵을 업데이트하고 아래의 실수를 해결했습니다.
다음은 처음에 확인한 샘플입니다.
보시다시피 사이트 맵에서 스테이징 사이트로 연결되는 것을 발견했습니다.

사이트맵에 스테이징 환경을 포함하는 것이 왜 나쁜가요?
- Google은 불필요한 URL을 크롤링합니다.
- 스테이징 URL이 인덱싱되면 특정 정보를 찾는 사용자를 혼란스럽게 하고 검색 결과에서 해당 URL을 발견하게 됩니다.
사이트맵에서 따라야 할 모범 사례
웹사이트용 사이트맵을 만들고 관리할 때 피해야 할 사항에 대한 개요를 살펴보았습니다.
이제 따라야 할 몇 가지 관행은 무엇입니까?
다음은 내가 권장하는 몇 가지 모범 사례입니다.
– 사이트맵 에는 표준 URL 만 포함하십시오.
– 최대 사이트맵 크기는 URL 50,000개여야 합니다. 더 많은 URL이 있는 경우 더 작은 사이트맵으로 나눌 수 있습니다.
– URL의 세션 ID를 사이트맵에 포함하지 마십시오 . 이렇게 하면 주어진 URL의 중복 크롤링을 줄일 수 있습니다.
– 일관되고 완전한 URL을 사용합니다. – 상대 URL이 아닌 절대 URL을 포함합니다.
앞서 언급했듯이 사이트맵에는 가치 있는 URL만 포함되어야 합니다. 전체 웹사이트 크롤링을 수행하여 크롤링에서 찾은 URL이 사이트맵에서 누락되었는지 확인할 수 있습니다.
이것은 사이트맵 최적화와 관련하여 빙산의 일각에 불과합니다. 추가 권장 사항 은 XML 사이트맵에 대한 궁극적인 가이드를 참조하십시오.
마무리
사이트맵은 모든 웹사이트에 유용합니다.
그러나 내가 나열한 사이트의 예에서 볼 수 있듯이 많은 인기 있는 웹 사이트에는 최적화된 사이트맵이 없기 때문에 비용이 많이 듭니다. 인덱스 범위가 크게 영향을 받습니다.
또한 사이트맵의 SEO 실수는 크롤링 예산에 부정적인 영향을 미칠 수 있으며 이는 중형 또는 대형 웹사이트가 있는 경우 매우 중요합니다.
이제 피해야 할 실수가 무엇인지 알고 Google에서 사이트를 보다 효율적으로 크롤링하여 색인 범위를 개선하는 데 도움이 되는 사이트맵을 만드는 과정에 있기를 바랍니다.
