티스토리 뷰

웹 해킹/웹 공부

robots.txt란?

삼전동해커 2020. 7. 23. 16:45

robots.txt란

robots.txt란 웹 크롤러와 같은 착한 로봇들의 행동을 관리하는 것입니다.

우리는 이 로봇을 관리해서 원하는 페이지가 노출되게, 혹은 노출이 안되도록 할 수 있습니다.


robots.txt파일은 html마크업 코드가 없고 웹사이트의 다른 파일들처럼 웹서버에서 호스팅 됩니다. 파일은 사이트의 어디에도 연결되지 않아 사용자가 파일을 볼 일은 적지만 대부분의 웹 크롤러 봇들은 나머지 사이트를 크롤링하기 전에 이 파일을 찾습니다.

웹 크롤러같이 찾한 로봇은 도메인의 다른 페이지를 보기전에 robots.txt를 보고 하지 말라는 건 안합니다.반면, 나쁜 로봇은 robots.txt파일을 무시하거나 금지된 웹페이지를 찾으려고 합니다.

모든 서브 도메인에 자체 robots.txt파일이 필요합니다.


위치

robots.txt를 적용할 웹사이트의 최상위 디렉토리에 적용하면됩니다.

ex)www.watchout31337@tistory.com/robots.txt


robots.txt. 기본문법

-User-agent:검색봇의 이름,웹 사이트 관리자가 어떤 종류의 로봇이 크롤링을 하는지 알 수 있게 돕는다. 


-Disallow : 이 명령은 어떤 웹페이지 url을 크롤링 하지 않아야 하는지 알려준다.


-Allow : 특정 웹페이지나 디렉토리에 접근하라는 명령


-crawl-delay : 검색엔진 스파이더 봇이 서버를 과도하게 사용하지 못하도록 대기하라는 명령


-Robots Exclusion Protocol:보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹페이지를 작성하는 프로토콜


-Sitemaps Rrotocol


사용법

'File:'robots.txt',User-agent:*/' 이렇게 적어놓으면 검색로봇의 검색대상에서 제외된다.


'User-agent:*,Disallow:/' -> *는 모든 로봇을 뜻하고, /는 모든 디렉토리를 뜻한다. 즉, 모든로봇이 모든 디렉토리 접근을 불허.


'User-agent:Googlebot,Disallow: ,User-agent:*,Disallow:/' -> 구글봇만 허용하고 나머지는 모두 차단.


구글의 로봇의 위치입니다.

http://www.google.com/robots.txt

들어가보면 구글의 설정들을 볼 수 있습니다.

'웹 해킹 > 웹 공부' 카테고리의 다른 글

정규표현식  (0) 2020.07.25
소켓(socket)이란  (0) 2020.07.23
구글 도크  (0) 2020.07.21
base 64 encoding.  (0) 2020.07.20
URL encoding.  (0) 2020.07.20
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/05   »
1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 31
글 보관함