Skip to content
포워드 마케팅 로고
  • SEO 서비스
  • 마케팅 성과분석
  • 홈페이지 제작
  • 블로그
  • 문의하기

Robots.txt와 Sitemap.xml 개념 이해 및 활용 방법

메인페이지 » 테크니컬 SEO » Robots.txt와 Sitemap.xml 개념 이해 및 활용 방법

공유하기

Robots.txt와 Sitemap.xml 개념 이해 및 활용 방법

여러분들이 운영하고있는 웹 사이트를 상위 노출 시키기 위해, 검색엔진에게 사이트 콘텐츠를 쉽게 이해하도록 도울수 있습니다. 우리는 이것을 검색엔진최적화 (Search Engine Optiomization)이라고 합니다.

아마 많은 분들이 검색엔진이 우리 웹사이트를 어떻게 읽어가고 콘텐츠를 저장하는지 궁금해 하실것 같습니다.

이번 포스팅을 통해 SEO에서 가장 기초 뿌리가 되는 robots.txt 와 sitemap.xml 을 알아보겠습니다.

Robot.txt란 무엇인가?

검색엔진이 우리 웹 사이트에 접근할때 가장 먼저 도달하는 곳이 바로 Robots.txt 파일 이라는 곳입니다.

파일이 등록 되어 있다면, 주소창에 “자신의 도메인/robots.txt” 를 검색하면 누구나 접근이 가능합니다.

Robots.txt

Robots.txt 파일 예시

주소창에서 fourward.co.kr/robots.txt 를 검색하면 위 이미지와 같은 내용을 확인할 수 있습니다.

Robots.txt는 검색로봇에게 웹 사이트의 페이지를 수집하도록 제한하거나 허용하도록 설정할 수 있습니다. 쉽게 말해, 검색엔진 로봇에게 접근을 제어할 수 있는 “출입국 통제 사무소”와 같은 역할을 하는 곳입니다.

검색엔진에 노출을 원치 않을 경우 해당 파일을 활용하여 안내문에 형식으로 크롤링을 특정 경로에 대해서 자제 시키도록 권고할 수 있습니다.

반대로, Robots.txt 파일을 아무런 설정하지 않았다면,  구글과 네이버 이외의 얀덱스(러시아), 바이두(중국)  등 모든 검색엔진 로봇들은 우리의 웹 사이트의 모든 정보를 읽게되고 검색엔진 결과에 반영하여 노출하게 됩니다.

대부분의 웹 사이트에서는 검색 노출을 많이 하기 위해서 보통은 제한하지 않고 모든 페이지를 허용하고 있습니다.

하지만, 검색엔진에서 robots.txt 파일 유무 또한 파악하고 이에 해당하는 로직 점수를 부여하기 때문에 전문적인 robot.txt을 파일로 설정하여 진행하는 것이 올바르다고 할 수 있습니다.

Robots.txt 를 설정해야 하는 3가지 주요 이유

  • 비공개 페이지 차단

    • 사이트에 색인 생성을 원하지 않는 페이지가있는 경우가 있습니다. 예를들어, 로그인이 필요한 페이지의 경우 검색엔진에 노출될 필요가 없습니다. 사람들은 페이지에 접속과 동시에 로그인 페이지에 도착한다면, 99%는 이탈을 하게 될것 입니다. 문제는 이탈률(Bounce Rate) 이 높은 페이지의 경우 구글의 랭킹을 하락 시키기 때문에 robots.txt를 사용하여 검색엔진 크롤러 및 봇으로부터 이러한 페이지를 차단해야 합니다.
  • 크롤링 예산 최대화

    • 검색엔진 로봇은 여러분의 웹 사이트의 모든 페이지를 크롤링하고 색인하지 않습니다. 색인을 생성하는 데 어려움을 겪고 있다면 크롤링 예산 문제가있을 수 있습니다. robots.txt로 중요하지 않은 페이지를 차단함으로써 Googlebot은 실제로 중요한 페이지에 더 많은 크롤링 예산을 지출 할 수 있습니다.
  • Sitemap.xml 경로 지정

    • Robots.txt 파일 제일 하단 Site: */sitemap.xml 경로를 지정해주면 검색엔진 로봇은 이를 참고하여 사이트맵 경로를 통해 웹 페이지들을 색인하는데 도움을 가질수 있습니다.

Robots.txt 잘못된 예시

아래 2가지 항목에 해당 된다면, 설정이 잘못되었기 때문에 수정을 권장 합니다.

잘못된 사례 1 | robots.txt

1. robots.txt 파일이 없는 경우

robots.txt | 잘못된 예시

2. robots.txt 파일 경로가 잘못 되어 있는 경우

브라우저에서 “메인 도메인/robots.txt” 검색시 미적용의 경우, 현재 파일이 존재하지 않거나 경로가 잘못 설정되어 있습니다.

Robot.txt 설정하는 방법 (카페24, 메이크샵, 워드프레스 등 플랫폼 제외)

Robots.txt 파일은 웹 사이트 내부 페이지를 생성해서 만드는 것이 아닌, 자신의 컴퓨터/노트북을 이용하여 텍스트 파일(TXT)로 작성하면 됩니다. 그리고 이 파일은 여러분의 웹 사이트 루트 디렉토리 최상단에 위치해야 합니다. 만약 다른 곳에 업로드 했을시 검색엔진은 해당 파일을 찾을수 없습니다.

로봇파일           Robots.txt

요소 설명
User-agent 사이트를 크롤링하는 크롤러 명시 (e.g. Googlebot, Yandexbot, Yeti)

(* 사용으로 모든 크롤러 설정 가능)

Allow 크롤러의 접근 허용 범위 명시

(/* 사용으로 /이후 모든 페이지 URL에 대한 접근 허용)

Disallow 크롤러들의 접근 제한 범위 명시

(/* 사용으로 /이후 모든 페이지 URL에 대한 접근 제한)

#Sitemap files 등록 된 sitemap.xml 파일 경로 명시

검색엔진 크롤링 봇이 sitemap.xml에 빠르게 접근할 수 있도록 하여 사이트 내 페이지가 인덱스 될 수 있도록 정보 제공

Robots.txt 규칙 예제를 참고

  • 모든 검색엔진의 로봇에 접근을 허용할 경우(Allow)

User-agent: *

Allow: /

  • 모든 검색엔진의 로봇에 접근을 허용하지 않을경우 (Disallow)

User-agent: *

Disallow: /

  • 다른 검색엔진 로봇의 수집은 허용하지 않고, 구글 검색엔진의 로봇만 허용할 경우

User-agent: *

Disallow: /

User-agent: Googlebot

Allow: /

  • 검색엔진 로봇에게 Sitemap.xml 파일의 위치를 알려주며, 모든 검색엔진의 로봇에 접근을 허용할 경우

User-agent: *

Allow: /

Sitemap: https://www.example.com/sitemap.xml

Sitemap.xml란?

우리가 흔히 알고있는 사이트맵은 여러 링크들로 이루어진 사이트 전체의 구조를 나타내어 유저들에게 페이지의 구조를 설명 드리는 것으로 알고 있지만, 지금 설명드리는 XML 사이트는 전혀 다른 성질의 것입니다.

XML 사이트맵은 검색엔진 로봇들에게 사이트 구조를 효율적으로 파악할수 있게끔 도움을 주는 “책 목차”와 같은 역할을 합니다.

쉽게말해, 웹 사이트의 구조는 기본적으로 ‘메인페이지>대 카테고리>중 카테고리>소 카테고리>상세페이지’의 구조를 가지고 있습니다.

이러한 구조를 XML 사이트맵에서 검색엔진 로봇에게 알려준다고 생각하시면 됩니다.

특히 쇼핑몰 같은 경우, 굉장히 큰 볼륨으로 많은 페이지들이 있기 때문에 XML 사이트맵이 유용하게 활용이 될 수 있습니다.

Sitemap.xml 형식

  <? xml version = “1.0”encoding = “UTF-8”?>

<urlset

      xmlns = “http://www.sitemaps.org/schemas/sitemap/0.9”

      xmlns : xsi = “http://www.w3.org/2001/XMLSchema-instance”

      xsi : schemaLocation = “http://www.sitemaps.org/schemas/sitemap/0.9

      http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd “>

   https://www.fourward.co.kr/seo/ </ loc>

   1.00 </ priority>

   weekly </ changefreq>

</ url>

   https://www.fourward.co.kr/data-analytics/ </ loc>

   0.80 </ priority>

   weekly </ changefreq>

</ url>

   https://www.fourward.co.kr/cro/ </ loc>

   0.80 </ priority>

   weekly </ changefreq>

</ url>

Sitemap.xml 설정 방법

Sitemap.xml 파일은 Robots.txt 파일과 다르게 항상 최상위 루트 디렉토리에 위치할 필요는 없습니다. 하지만, 대부분의 웹 사이트에서는 최상위 루트 디렉토리에 업로드를 하였기 때문에, 다른 사이트의 예시를 살펴볼 경우 “도메인/sitemap.xml”을 입력하여 예시를 확인해 보시기 바랍니다.

*Sitemap.xml 을 생성을 도와주는 여러 무료 프로그램들이 존재하지만, 유료 프로그램 혹은 SEO 전문적 지식이 있는 사람에게 요청을 하시는 것을 권장합니다.

Sitemap.xml 형식

사이트맵 파일은 여러 형식으로 만들수 있지만, XML 파일로 제작하시는 것을 권장합니다.

  • XML
  • RSS, Atom 1,0, mRSS
  • TXT(텍스트)

Sitemap.xml 생성시 주의 사항

  • Sitemap.xml 파일은 UTF-8로 인코딩이 되어야 하며, 리다이렉션이 포함된 페이지는 사이트맵에 URL을 생성 하면 안됩니다. 즉, HTTP 200 상태 코드 페이지만 포함 해야 합니다. HTTP 응답 코드 관련하여 “HTTP 상태 코드 정리“를 참고하시기 바랍니다.
  • 1개의 사이트맵 파일은 50,000개 이상의 URL (50MB)이 넘지 않아야 합니다.
    • 웹 페이지 수가 많아 초과된 경우, 분할하여 사이트맵을 생성/제출해야 합니다. (예시: fourward.co.kr/sitemap.xml)

  • 텍스트 뿐 아닌 이미지, 동영상 등과 같은 포맷의 미디어 사이트맵을 확장하여 생성/제출할 수 있습니다.
  • 국문 사이트 이외의 다른 언어/지역에 대한 대체 사이트가 존재할 경우 hreflang을 포함하여 사이트맵을 제작해야 합니다.
  • 이관성 있는 정규화된 URL 형식이아닌 다른 항목을 넣으면 안됩니다.

이번 포스팅을 통해 Robots.txt와 Sitemap.xml 설정하기 위한 테크니컬 SEO 기초를 함께 알아봤습니다. 만약 처음 이런 내용들을 접하셨다면, 아마 웹 사이트에는 신기하고 어려운 내용들이 많다고 느끼실 수 있을 겁니다.

테크니컬 SEO에는 robots.txt와 sitemap.xml 이외의 여러 요소들이 존재합니다. 차근차근 SEO 지식을 통해 여러분의 웹사이트 성과를 높이시길 기원합니다.

카테고리

  • 검색엔진 최적화
  • 구글 애널리틱스 GA
  • 기타 자료
  • 블로그 마케팅
  • 오프페이지 SEO
  • 온라인 마케팅
  • 온페이지 SEO
  • 유튜브 SEO
  • 전환율 최적화
  • 테크니컬 SEO

블로그 태그

CRO CTA eCommerce GA PPC SEM SEO SEO 알고리즘 SEO 콘텐츠 검색엔진최적화 구글 SEO 구글 애널리틱스 네이버 SEO 디지털 마케팅 랜딩 페이지 링크빌딩 메타태그 백링크 온라인 마케팅 유튜브최적화 콘텐츠 마케팅 클릭당 광고 테크니컬 SEO 홈페이지
By 포워드 팀 / Categories: 검색엔진 최적화, 테크니컬 SEO / Tags: SEO, 검색엔진최적화, 구글 SEO, 네이버 SEO /

Related Posts

  • 검색엔진최적화(SEO)로 홈페이지 노출 확장하는 방법

    검색엔진최적화(SEO)로 홈페이지 노출 확장하는 방법

    2021/07/06|0 Comments
  • SEO 업체를 고용하기 위한 8가지 팁

    SEO 업체 및 전문가를 고용하기 위한 8가지 팁

    2021/06/24|0 Comments
  • HTTP 상태 코드

    HTTP 상태 코드

    2021/06/24|0 Comments
  • 검색엔진 마케팅 무엇인가요?

    검색엔진 마케팅 무엇인가요?

    2021/06/20|0 Comments
포워드 로고
서비스
  • SEO 검색엔진최적화
  • 웹 데이터 분석
  • 홈페이지 제작
리소스
  • 블로그
포워드
  • 문의하기

회사명: 포워드스퀘어

대표자: 김종민

사업자등록번호: 248-01-01836

사업분야: 데이터랩, 검색엔진최적화, 마케팅 컨설팅, 웹사이트 제작

주소: 서울특별시 금천구 가산디지털2로 166, 에이스 K1타워 919호 | 우편번호 : 08503

고객센터: 070-8098-5003

E-Mail: info@fourward.co.kr

개인정보관리책임자: 김종민

Copyright © 2022 • 포워드스퀘어 (FOURWARD) All right Reserved.

포워드 로고