여러분들이 운영하고있는 웹 사이트를 상위 노출 시키기 위해, 검색엔진에게 사이트 콘텐츠를 쉽게 이해하도록 도울수 있습니다. 우리는 이것을 검색엔진최적화 (Search Engine Optiomization)이라고 합니다.
아마 많은 분들이 검색엔진이 우리 웹사이트를 어떻게 읽어가고 콘텐츠를 저장하는지 궁금해 하실것 같습니다.
이번 포스팅을 통해 SEO에서 가장 기초 뿌리가 되는 robots.txt 와 sitemap.xml 을 알아보겠습니다.
검색엔진이 우리 웹 사이트에 접근할때 가장 먼저 도달하는 곳이 바로 Robots.txt 파일 이라는 곳입니다.
파일이 등록 되어 있다면, 주소창에 “자신의 도메인/robots.txt” 를 검색하면 누구나 접근이 가능합니다.
Robots.txt 파일 예시
주소창에서 fourward.co.kr/robots.txt 를 검색하면 위 이미지와 같은 내용을 확인할 수 있습니다.
Robots.txt는 검색로봇에게 웹 사이트의 페이지를 수집하도록 제한하거나 허용하도록 설정할 수 있습니다. 쉽게 말해, 검색엔진 로봇에게 접근을 제어할 수 있는 “출입국 통제 사무소”와 같은 역할을 하는 곳입니다.
검색엔진에 노출을 원치 않을 경우 해당 파일을 활용하여 안내문에 형식으로 크롤링을 특정 경로에 대해서 자제 시키도록 권고할 수 있습니다.
반대로, Robots.txt 파일을 아무런 설정하지 않았다면, 구글과 네이버 이외의 얀덱스(러시아), 바이두(중국) 등 모든 검색엔진 로봇들은 우리의 웹 사이트의 모든 정보를 읽게되고 검색엔진 결과에 반영하여 노출하게 됩니다.
대부분의 웹 사이트에서는 검색 노출을 많이 하기 위해서 보통은 제한하지 않고 모든 페이지를 허용하고 있습니다.
하지만, 검색엔진에서 robots.txt 파일 유무 또한 파악하고 이에 해당하는 로직 점수를 부여하기 때문에 전문적인 robot.txt을 파일로 설정하여 진행하는 것이 올바르다고 할 수 있습니다.
아래 2가지 항목에 해당 된다면, 설정이 잘못되었기 때문에 수정을 권장 합니다.
1. robots.txt 파일이 없는 경우
2. robots.txt 파일 경로가 잘못 되어 있는 경우
브라우저에서 “메인 도메인/robots.txt” 검색시 미적용의 경우, 현재 파일이 존재하지 않거나 경로가 잘못 설정되어 있습니다.
Robots.txt 파일은 웹 사이트 내부 페이지를 생성해서 만드는 것이 아닌, 자신의 컴퓨터/노트북을 이용하여 텍스트 파일(TXT)로 작성하면 됩니다. 그리고 이 파일은 여러분의 웹 사이트 루트 디렉토리 최상단에 위치해야 합니다. 만약 다른 곳에 업로드 했을시 검색엔진은 해당 파일을 찾을수 없습니다.
요소 | 설명 |
User-agent | 사이트를 크롤링하는 크롤러 명시 (e.g. Googlebot, Yandexbot, Yeti)
(* 사용으로 모든 크롤러 설정 가능) |
Allow | 크롤러의 접근 허용 범위 명시
(/* 사용으로 /이후 모든 페이지 URL에 대한 접근 허용) |
Disallow | 크롤러들의 접근 제한 범위 명시
(/* 사용으로 /이후 모든 페이지 URL에 대한 접근 제한) |
#Sitemap files | 등록 된 sitemap.xml 파일 경로 명시
검색엔진 크롤링 봇이 sitemap.xml에 빠르게 접근할 수 있도록 하여 사이트 내 페이지가 인덱스 될 수 있도록 정보 제공 |
User-agent: *
Allow: /
User-agent: *
Disallow: /
User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
우리가 흔히 알고있는 사이트맵은 여러 링크들로 이루어진 사이트 전체의 구조를 나타내어 유저들에게 페이지의 구조를 설명 드리는 것으로 알고 있지만, 지금 설명드리는 XML 사이트는 전혀 다른 성질의 것입니다.
XML 사이트맵은 검색엔진 로봇들에게 사이트 구조를 효율적으로 파악할수 있게끔 도움을 주는 “책 목차”와 같은 역할을 합니다.
쉽게말해, 웹 사이트의 구조는 기본적으로 ‘메인페이지>대 카테고리>중 카테고리>소 카테고리>상세페이지’의 구조를 가지고 있습니다.
이러한 구조를 XML 사이트맵에서 검색엔진 로봇에게 알려준다고 생각하시면 됩니다.
특히 쇼핑몰 같은 경우, 굉장히 큰 볼륨으로 많은 페이지들이 있기 때문에 XML 사이트맵이 유용하게 활용이 될 수 있습니다.
<? xml version = “1.0”encoding = “UTF-8”?>
<urlset
xmlns = “http://www.sitemaps.org/schemas/sitemap/0.9”
xmlns : xsi = “http://www.w3.org/2001/XMLSchema-instance”
xsi : schemaLocation = “http://www.sitemaps.org/schemas/sitemap/0.9
http://www.sitemaps.org/schemas/sitemap/0.9/sitemap.xsd “>
https://www.fourward.co.kr/seo/ </ loc>
1.00 </ priority>
weekly </ changefreq>
</ url>
https://www.fourward.co.kr/data-analytics/ </ loc>
0.80 </ priority>
weekly </ changefreq>
</ url>
https://www.fourward.co.kr/cro/ </ loc>
0.80 </ priority>
weekly </ changefreq>
</ url>
Sitemap.xml 파일은 Robots.txt 파일과 다르게 항상 최상위 루트 디렉토리에 위치할 필요는 없습니다. 하지만, 대부분의 웹 사이트에서는 최상위 루트 디렉토리에 업로드를 하였기 때문에, 다른 사이트의 예시를 살펴볼 경우 “도메인/sitemap.xml”을 입력하여 예시를 확인해 보시기 바랍니다.
*Sitemap.xml 을 생성을 도와주는 여러 무료 프로그램들이 존재하지만, 유료 프로그램 혹은 SEO 전문적 지식이 있는 사람에게 요청을 하시는 것을 권장합니다.
사이트맵 파일은 여러 형식으로 만들수 있지만, XML 파일로 제작하시는 것을 권장합니다.
웹 페이지 수가 많아 초과된 경우, 분할하여 사이트맵을 생성/제출해야 합니다. (예시: fourward.co.kr/sitemap.xml)
이번 포스팅을 통해 Robots.txt와 Sitemap.xml 설정하기 위한 테크니컬 SEO 기초를 함께 알아봤습니다. 만약 처음 이런 내용들을 접하셨다면, 아마 웹 사이트에는 신기하고 어려운 내용들이 많다고 느끼실 수 있을 겁니다.
테크니컬 SEO에는 robots.txt와 sitemap.xml 이외의 여러 요소들이 존재합니다. 차근차근 SEO 지식을 통해 여러분의 웹사이트 성과를 높이시길 기원합니다.
회사명: 포워드스퀘어
대표자: 김종민
사업자등록번호: 248-01-01836
사업분야: 데이터랩, 검색엔진최적화, 마케팅 컨설팅, 웹사이트 제작
주소: 서울특별시 금천구 가산디지털2로 166, 에이스 K1타워 919호 | 우편번호 : 08503
고객센터: 070-8098-5003
E-Mail: info@fourward.co.kr
개인정보관리책임자: 김종민
Copyright © 2022 • 포워드스퀘어 (FOURWARD) All right Reserved.