티스토리 뷰

WWW

Robots.txt 자세한설명, 설정 예제

devlinker 2017. 3. 21. 23:59

로봇 배제 표준[Robots exclusion standard]

 

Rotobs.txt는 도메인을 가지고 있는 웹 사이트의 콘텐츠(contents)를 로봇이 접근하여 크롤링하는 것을 방지하기 위한 규약을 기술해 놓은 파일이다. 1994년 6월에 만들어 졌지만 이 규약은 권고안이기 때문에 접근 방지 설정을 하더라도 강제성이 없으며 실제 접근이 가능하다.

 

파일의 위치는 도메인의 root폴더에 위치한다.

예를들어, 나의 티스토리 도메인은 http://devlinker.tistory.com 이며, 

브라우저에서 http://devlinker.tistory.com/robots.txt 입력하면 확인가능하다.

 

 

예제>

1. 사이트내에 모든 문서를 모든 로봇에게 접근 허용

 User-agent: *    <-모든 봇

 Allow: /           <- 모든 문서 허용

 

2. 사이트내에 모든 문서 모든 봇 차단

 User-agent: *   <--모든 봇

 Disallow: /           <--모든 문서 차단

 

3. 특정봇, 특정 폴더, 파일에 대한 차단

User-agent: *     <--모든 봇
Disallow: /owner   <--특정폴더 차단
Disallow: /admin
Disallow: /oldadmin
Disallow: /search/searh.jsp   <--특정파일 차단
Disallow: /m/search
Disallow: /m/admin
Allow: /                  <--위에서 차단한 폴더, 문서를 제외한 모든 문서 허용

User-agent: Mediapartners-Google    <--특정 봇에 대하여
Allow: /                                        <-- 모든 문서 허용

 

 

 

[참조]

 

 

 

 

 

 

 

 

 

'WWW' 카테고리의 다른 글

.NET Framework 다운로드 모음 (공식 microsoft사이트)  (0) 2018.03.29
댓글