[기획연재] 이제 나도 구글 전문가!! (2)

안녕하세요~ 지난 번엔 Google Search Console의 기본 등록 및 인증 방법에 대하여 알아봤습니다. 오늘은 그 두 번 째 얘기 XML Sitemap 에 대하여 알아보겠습니다.

Sitemap이란?
Sitemap은 웹마스터가 크롤링에 사용할 수 있는 사이트의 페이지에 대한 정보를 검색 엔진에 알리는 손쉬운 방법입니다. Sitemap의 가장 간단한 형식은 검색 엔진에서 사이트를 보다 지능적으로 크롤링할 수 있도록 각 URL에 대한 추가 메타데이터(마지막 업데이트된 날짜, 변경 빈도, 사이트의 다른 URL에 상대적인 중요도)와 함께 사이트에 대한 URL을 나열하는 XML 파일입니다.

웹크롤러는 보통 해당 사이트 및 기타 사이트의 링크에서 페이지를 검색합니다.Sitemap은 해당 데이터를 보완하여 Sitemap을 지원하는 크롤러가 해당 Sitemap에 있는 모든 URL을 선택하고 관련 메타데이터를 사용하여 이들 URL에 대해 파악할 수 있도록 합니다.Sitemap 프로토콜을 사용하더라도 웹페이지가 반드시 검색 엔진에 포함되는 것은 아니지만 이를 통해 웹크롤러가 귀하의 사이트를 보다 효과적으로 크롤링하기 위한 힌트를 얻을 수 있습니다.

Sitemap 0.90은 Attribution-ShareAlike Creative Commons License의 약관에 따라 제공되며 Google, Yahoo! 및 Microsoft의 지원을 비롯하여 널리 채택되고 있습니다.

발췌 : http://www.sitemaps.org/

정리하면 각종 검색 엔진에서 보다 효과적으로 크롤링 하기 위한 방법이라고 하네요. 그럼 간단하게 사이트맵의 구조를 한 번 살펴볼까요?

http://www.example.com/
2005-01-01
monthly
0.8

전혀 간단하지 않습니다! 하지만 친절하게도 무슨말인지 모를만한 부분에 링크가 걸려있네요! 저는 더 친절하게 그 내용을 퍼왔습니다. 그리고 요약을 하면 아래와 같겠네요.

속성 설명
<urlset> 필수 현재 프로토콜 표준을 참조하여 파일을 선언
<url> 필수 각 URL 항목의 상위 태그.
<loc> 필수 페이지의 URL.
<lastmod> 옵션 파일을 마지막으로 수정한 날짜.
<changefreq> 옵션 페이지가 변경되는 빈도. 이 값은 검색 엔진에 일반적인 정보를 제공하며 검색 엔진에서 페이지를 크롤링하는 정확한 빈도와는 관련이 없을 수도 있습니다. 유효한 값은 다음과 같습니다.

  • always (접속때마다 업데이트)
  • hourly (매 시간 업데이트)
  • daily (매일 업데이트)
  • weekly (매주 업데이트)
  • monthly (매월 업데이트)
  • yearly (매년 업데이트)
  • never (업데이트 안함)
<priority> 옵션 해당 사이트의 기타 URL에 대한 특정 URL의 상대적 우선순위.
유효값 범위는 0.0-1.0
페이지의 기본 우선순위는 0.5입니다.

이제 내 사이트의 URL을 한 땀 한 땀 잘 적어주시되 Sitemap.xml 파일은 최대 50,000개의 URL, 최대용량 10MB를 초과할 수 없으니 이 점 주의하셔서 작성하시면 되겠습니다. 50,000개는 커녕 50개도 못 적으시겠다구요? 네 작성하는 저도 직접 적어본적이 없습니다. 자동으로 Sitemap을 작성해주는 툴들이 있으니까요^^

대표적인 예로 Xenu (http://home.snafu.de/tilman/xenulink.html ) 를 들 수 있습니다. 사이트가 매우 이상해 보여도 꽤 알찬 툴입니다. 나중에 다시 얘기하겠지만 Broken link도 체크하고 Sitemap을 제한 없이 그것도 무료로 제작할 수 있습니다.

Image module

위 그림에서와 같이 새 문서(new)를 클릭하고 사이트맵을 생성하고자 하는 사이트의 URL을 입력합니다.

Image module

More Options 로 들어가게 되면 여러가지 옵션이 있는데요 아래 두 항목은 필수 체크 하신 후 진행하시면 사이트맵 수집이 시작됩니다.

Image module

File – Create Google Sitemap File 로 XML 파일 생성하면 끝~! 간단하죠? 이렇게 착한 툴이 도와주면 50,000 URL 도 시간문제!! 이제 다시 앞으로 가서 50,000 URL이 넘거나 10MB 의 용량을 초과했을 경우 XML Sitemap 색인 기능을 이용해 여러개의 XML Sitemap을 관리할 수 있습니다.

http://www.example.com/sitemap1.xml.gz
2004-10-01T18:23:17+00:00

http://www.example.com/sitemap2.xml.gz
2005-01-01

위에서와 같이 urlset 대신 sitemapindex를 url 대신 sitemap으로 대체하고 각각의 사이트맵 파일의 URL을 loc 부분에 입력합니다. 이 때 sitemap파일은 gz 형식으로 압축하여 용량을 줄여도 인식 가능합니다. 이런식으로 각각의 sitemap 파일을 추가하여 위와 같은 형식으로 작성하고 해당 파일은 적당히 sitemap-index.xml 로 저장해주면 작성 완료! 이제 sitemap-index.xml은 홈페이지 최상위 폴더에, 각각의 sitemap 파일은 sitemap-index 작성시 지정해 준 경로에 올려줍니다.

Image module

그리고 바로 앞의 포스팅의 내용대로 Google Search Console에 접속하여

Image module

Sitemap을 제출합니다.

Image module

“SITEMAP 추가/테스트”로 열어서 sitemap-index.xml 혹은 사이트맵 파일이 1개면 해당 사이트맵의 경로를 입력하신 후 “Sitemap 제출” 하게되면 완료!

마지막으로 Web에서 사용 가능한 Sitemap Generator 소개해드리고 다음시간엔 Google Search Console 의 기타 다른 기능에 대해서 알아보겠습니다.

Image module

특별히 고칠 옵션은 없습니다. URL 입력하고 Security Code 입력 후 “Create free XML Sitemap” 을 클릭하세요.