사이트에 좋은 Robots.txt 파일을 만드는 방법

게시 됨: 2018-07-09

Robots.txt – 기술적인 주제에 가깝습니다. Robots.txt 파일은 대부분의 사람들에게 새로운 용어일 수 있습니다. 사실, 웹사이트의 미래를 결정하는 것은 작은 텍스트입니다.

어떻게 그게 가능합니까?

것이 가능하다. 이 작은 텍스트는 사이트 트래픽을 제어할 수 있습니다. 잘못 입력하면 검색 결과에 페이지가 표시되지 않을 수 있습니다. 따라서 올바르게 사용하는 방법을 아는 것이 중요합니다.

귀하의 사이트에 적용할 수 있는 간단하고 쉬운 SEO 방법 중 하나입니다. robots.txt의 기능을 제어하기 위해 기술적 지식이 필요하지 않습니다. 소스 코드를 찾을 수 있다면 쉽습니다.

또한 robots.txt를 사이트의 아무 곳에나 배치해도 도움이 되지 않습니다. 그러려면 먼저 소스 코드를 찾아 거기에 보관해야 합니다. 그러면 웹 크롤러만이 귀하의 지시를 식별하고 그에 따라 조치를 취할 수 있습니다.

이 기사에서 다음 질문에 대한 답을 얻을 수 있습니다.

robots.txt 파일이란 무엇입니까?
robots.txt 파일의 용도
어떻게 작동합니까?
그것을 만드는 방법?
robots.txt 파일의 중요성?
이 파일에 무엇을 포함할 것인가?

먼저 용어를 설명하자면

Robots.txt 파일이란 무엇입니까?

Robots.txt는 사이트의 루트 디렉토리에 있는 텍스트 파일입니다. 특정 웹사이트를 방문할 때 검색 엔진 크롤러와 스파이더를 제어합니다. 즉, 방문하고 싶은 웹 사이트 페이지에 대해 검색 엔진에 알려줍니다.

모든 웹사이트 소유자는 요즘 주목받기 위해 노력합니다. 이 작은 텍스트를 사용하여 이 작업을 수행할 수 있습니다. 검색 결과에서 특정 페이지를 포함하거나 제외하는 데 도움이 됩니다. 이 기사를 읽은 후 이에 대한 아이디어를 얻을 수 있습니다.

크롤러가 사이트에 액세스할 때 가장 먼저 요구하는 것은 'robots.txt' 파일입니다. 그러한 파일이 있으면 추가 절차를 위해 색인화 지침으로 이동합니다.

robots.txt 파일을 추가하지 않은 경우 검색 엔진은 어디서나 쉽게 사이트로 크롤링하고 사이트에서 찾은 모든 항목에 대한 색인을 생성할 수 있습니다. 그러나 사이트맵을 지정하는 것이 좋습니다. 검색 엔진이 지체 없이 새로운 콘텐츠를 쉽게 찾을 수 있도록 합니다.

robots.txt의 사용:

이 텍스트를 사용하여 중복 페이지를 피할 수 있습니다.
검색 엔진이 내부 검색 결과 페이지의 색인을 생성하는 것을 원하지 않는 경우 이 텍스트를 사용할 수 있습니다.
검색 엔진이 웹 페이지 또는 전체 사이트의 특정 영역을 인덱싱하는 것을 원하지 않는 경우 사용하십시오.
특정 이미지나 파일의 색인 생성을 피할 수 있습니다.
사이트맵으로 검색 엔진을 탐색할 수 있습니다.
크롤러가 동시에 여러 콘텐츠를 로드할 때 서버가 과부하되는 것을 방지하기 위해 크롤링 지연을 사용할 수 있습니다.

특정 페이지에 대한 액세스를 제어해야 할 때만 robots.txt를 사용하십시오. 그런거 없으면 안쓰셔도 됩니다

Robots.txt 파일 작동 방식:

검색 엔진에는 두 가지 주요 기능이 있습니다.

콘텐츠를 검색하기 위해 웹사이트 크롤링
특정 정보를 찾는 검색자에게 서비스를 제공하기 위해 해당 콘텐츠 색인 생성

검색 엔진은 한 사이트에서 다른 사이트로 크롤링합니다. 따라서 수십억 개의 사이트를 크롤링합니다. 크롤링 프로세스는 스파이더링이라고도 합니다.

웹사이트에 도착한 후 한 사이트에서 다른 검색 크롤러로 크롤링하기 전에 robots.txt 파일을 찾습니다. 하나를 찾으면 크롤러가 해당 사이트에서 계속하기 전에 먼저 읽습니다. 이 robots.txt 파일에는 웹 크롤러에 대한 지침이 포함되어 있습니다. 진행 여부를 말합니다. 크롤러가 수행할 작업에 대한 지침이나 정보를 찾지 못하면 추가 작업을 진행합니다.

robots.txt는 어디로 갈까요?

Robots.txt는 WebCrawler 또는 검색 엔진이 사이트를 방문할 때 가장 먼저 보게 되는 것입니다. 메인 디렉토리에서만 보입니다. 사이트에서 찾을 수 없으면 크롤러가 사이트의 모든 작업을 진행합니다. 따라서 메인 디렉토리 또는 루트 도메인에 robots.txt 파일을 배치하는 것이 필수적입니다.

이것을 설명하기 위해 wordpress.com의 예를 들어보겠습니다. 사용자 에이전트가 www.wordpress.com/robots.txt를 방문하고 로봇 파일이 없으면 사이트에 지침이 없는 것으로 가정합니다. 따라서 각 페이지의 색인을 생성하기 시작합니다. 로봇 파일이 www.wordpress.com /index/robots.text 또는 www.wordpress.com/homepage/robots.txt에 존재하는 경우 사용자 에이전트는 이를 찾지 못합니다. robots.txt가 없는 사이트로 처리됩니다.

Robots.txt 파일을 만드는 단계?

robots.txt 파일에는 두 개의 필드가 있습니다. 한 줄에는 사용자 에이전트 이름이 있거나 여러 줄에는 지시문이 있습니다. 두 번째 줄은 크롤러가 웹사이트에서 수행해야 하는 작업을 나타냅니다. robots.txt 파일을 만드는 방법을 알아봅시다.

첫 번째 단계는 새 텍스트 파일을 여는 것입니다. PC용 메모장과 Mac용 텍스트 편집기를 사용하여 텍스트 동봉 파일로 저장할 수 있습니다.
루트 디렉토리에 업로드하십시오. 'htdocs' 또는 'www'라는 루트 수준 폴더입니다. 따라서 이것은 도메인 이름 바로 뒤에 옵니다.
하위 도메인이 있는 경우 각 하위 도메인에 대해 생성합니다.

robots.txt의 기본 형식은 다음과 같습니다.

사용자 에이전트 : [사용자 에이전트 이름]

Disallow : [ 크롤링하지 않을 URL 문자열의 이름]

이것은 기본적으로 robots.txt 파일로 알려져 있습니다. 여러 사용자 행과 지시문이 있을 수 있습니다. 허용, 허용하지 않음, 크롤링 지연 등 무엇이든 될 수 있습니다.

robots.txt의 기술 용어:

robots.txt 언어와 관련된 몇 가지 일반적인 단어가 있습니다. robots.txt 구문으로 알려져 있습니다. robots.txt 파일에는 5개의 주요 단어가 일반적으로 사용됩니다. 그들은:

사용자 에이전트 :

사용자 에이전트는 지침을 제공하는 웹 크롤러 또는 검색 엔진입니다.

허용하지 않음:

이 명령은 특정 URL을 크롤링하지 않도록 크롤러에 지시합니다. 각 URL은 하나의 허용 안 함 행만 사용할 수 있습니다.

허용하다:

이 명령은 Google Bot에만 사용됩니다. 이 명령을 제공하면 Google 봇은 상위 페이지가 허용되지 않는 경우에도 해당 하위 폴더 또는 페이지에 액세스할 수 있습니다.

크롤링 지연:

페이지 콘텐츠를 로드하고 크롤링하기 전에 대기 시간을 나타냅니다. Google 봇에서는 작동하지 않지만 Google 검색 콘솔에서는 시간을 설정할 수 있습니다.

Robots.txt 파일에 무엇을 포함할 것인가?

Robot.txt는 웹 로봇에 액세스하거나 액세스하지 않는 것에 대한 지침을 제공합니다. 사용자에게 웹페이지를 표시하지 않으려면 robots.txt 파일을 사용하여 크롤러에 지시를 내릴 수 있습니다. 그렇지 않으면 암호를 사용하여 보호할 수 있습니다. 이와 같이 관리자 또는 비공개 페이지의 위치를 숨길 수 있습니다. 로봇이 해당 개인 페이지로 크롤링하는 것을 방지합니다.

이제 몇 가지 예를 통해 수행하는 방법을 확인하겠습니다.

모든 것을 허용하고 사이트맵 제출:

이것은 모든 사이트에 적합한 옵션입니다. 이를 통해 검색 엔진은 모든 곳에서 크롤링하고 모든 데이터를 인덱싱할 수 있습니다. 또한 크롤러가 새 페이지에 쉽게 액세스할 수 있도록 XML 위치를 표시할 수 있습니다.

사용자 에이전트:*

허용하다: /

#사이트맵 참조

사이트맵: www.wordpress.com/sitemap.xml

하나의 하위 디렉토리를 제외한 모든 것을 허용

때때로 페이지에 검색 결과에 표시하고 싶지 않은 영역이 있을 수 있습니다. 이미지, 체크아웃 영역, 파일, 감사 섹션 등과 같은 것일 수 있습니다. 허용하지 않을 수 있습니다.

사용자 에이전트: *

허용하다: /

# 허용되지 않는 하위 디렉토리

허용하지 않음: /checkout/

허용하지 않음: /images/

허용하지 않음:/감사 보고서/

특정 파일을 제외한 모든 것을 허용:-

웹사이트에 미디어나 이미지를 보여주거나 문서를 보여주고 싶을 때가 있습니다. 그러나 검색 결과에 표시되는 것을 원하지 않습니다. 아래와 같이 애니메이션 파일, gif, pdf 또는 PHP 파일을 숨길 수 있습니다.

사용자 에이전트:*

허용하다: /

#파일 형식을 허용하지 않음

허용하지 않음: /*.gif$

허용하지 않음: /*.pdf$

허용하지 않음: /*.php$

특정 웹페이지를 제외한 모든 것을 허용:-

때때로 읽기에 적합하지 않은 일부 페이지를 숨기고 싶을 수 있습니다. 다른 사람에게 보여주고 싶지 않은 민감한 주제나 약관의 내용일 수 있습니다. 다음과 같이 숨길 수 있습니다.

사용자 에이전트: *

허용하다: /

#웹페이지를허용하지않다

허용하지 않음: /terms.html

Disallow:/contacts.php의 비밀 목록

특정 패턴의 URL을 제외한 모든 것을 허용

때때로 특정 URL 패턴을 허용하지 않을 수 있습니다. 테스트 페이지, 내부 검색 페이지 등이 될 수 있습니다.

사용자 에이전트: *

허용하다: /

#disallow URL 패턴

허용하지 않음: /*검색=

허용하지 않음: /*test.php$

위의 조건에서 많은 기호와 문자를 찾았습니다. 여기에서 각각이 실제로 무엇을 의미하는지 설명합니다

별 기호(*)는 임의의 수의 문자 또는 단일 문자를 나타냅니다.
달러 기호($)는 URL의 끝을 나타냅니다. 당신이 그것을 넣는 것을 잊었다면 당신은 실수로 많은 수의 URL을 차단할 것입니다

참고 : – 전체 도메인을 허용하지 않도록 주의하십시오. 때때로 다음과 같은 명령을 볼 수 있습니다.

사용자 에이전트: *

허용하지 않음: /

이게 무슨 뜻인지 아세요? 전체 도메인을 허용하지 않는 검색 엔진을 말하는 것입니다. 따라서 웹 페이지의 색인을 생성하지 않으며 검색 결과에 포함될 수 없습니다. 따라서 실수로 넣지 않도록 주의하십시오.

최종 테스트:

robots.txt 파일이 작동하는지 여부를 확인하는 것이 중요합니다. 제대로 했어도 적절한 검사를 하는 것이 좋습니다

Google의 robots.txt 도구를 사용하여 파일에 문제가 없는지 확인할 수 있습니다. 먼저 구글 웹마스터 도구에서 robots.txt 파일을 적용할 사이트를 등록해야 합니다. 등록 후 해당 도구에 로그인하고 특정 사이트를 선택합니다. 이제 Google은 오류를 표시하기 위해 모든 메모를 표시합니다.

사이트에 robots.txt 파일이 있는지 확인하는 방법은 무엇입니까?

이를 쉽게 확인할 수 있습니다. 앞의 워드프레스의 예를 들어보자. 웹사이트 주소 www.wordpress.com을 입력하고 /robots.txt를 추가합니다. 예: www.wordpress.com/robots.txt. 이제 사이트에 roborts.txt 파일이 있는지 여부를 확인할 수 있습니다.

기타 빠른 robots.txt 도움말:

robots.txt를 웹사이트의 최상위 디렉토리에 배치하면 주목받기 쉽습니다.
하위 디렉토리를 허용하지 않으면 하위 디렉토리 내의 모든 파일이나 웹 페이지가 허용되지 않습니다.
Robots.txt는 대소문자를 구분합니다. robots.txt로 입력해야 합니다. 그렇지 않으면 작동하지 않습니다.
일부 사용자 에이전트는 robots.txt 파일을 무시할 수 있습니다. 이메일 스크레이퍼 또는 맬웨어 로봇 등과 같은 일부 크롤러는 이 파일을 무시할 수 있습니다.
/robots.txt는 공개적으로 사용할 수 있습니다. 따라서 개인 사용자 정보를 숨기지 않는 것이 좋습니다. 루트 도메인 끝에 /robots.txt를 추가하면 robots.txt 파일이 있는 경우 크롤링하려는 페이지 또는 크롤링하지 않으려는 페이지를 볼 수 있습니다.
검색 엔진이 허용되지 않는 URL을 식별하고 색인에서 제거하는 데 며칠이 걸립니다.
루트의 각 하위 도메인은 별도의 robots.txt 파일을 사용합니다. 예를 들어, blog.wordpress.com과 wordpress.com은 별도의 robots.txt 파일을 사용합니다. 즉, blog.wordpress.com/robots.txt 및 wordpress.com/robots.txt
robots.txt 파일 하단의 모든 사이트맵에 위치를 추가하는 것이 좋습니다.

개념에 대한 아이디어가 있습니까? 간단하죠? 이를 사이트에 적용하고 성능을 향상시킬 수 있습니다. 사이트의 모든 것을 보여줄 필요는 없습니다. 관리자 페이지 또는 이용 약관 등을 사용자에게 숨길 수 있습니다. Robots.txt 파일이 도움이 될 것입니다. 현명하게 사용하여 사이트맵을 표시하고 사이트 색인을 더 빠르게 만드십시오.

Robot.txt는 원치 않는 콘텐츠나 파일을 금지하는 것만이 아닙니다. 빠른 다운로드에도 매우 중요합니다. 당신은 이것을 쉽게 할 수 있습니다. 이 작업을 수행하기 위한 기술 지식과 관련된 것은 없습니다. 아주 좋은 분석을 한 후에는 누구나 이 작업을 수행할 수 있습니다. 이것을 적용한 후 Google.robot.txt 도구로 테스트하는 것을 잊지 마십시오. 추가한 텍스트에 오류가 있는지 여부를 식별하는 데 도움이 됩니다.

SEO의 모든 측면에서 자신을 업데이트하는 것은 매우 중요합니다. 매일 새로운 변화가 일어나는 시장에 있으므로 주변에서 일어나는 모든 일에 대해 알아야 합니다. 귀하의 사이트를 큰 성공으로 만들기 위해 가장 현대적인 기술을 구현하십시오.