robots.txt란?

웹 해킹/웹 공부

삼전동해커 2020. 7. 23. 16:45

robots.txt란

robots.txt란 웹 크롤러와 같은 착한 로봇들의 행동을 관리하는 것입니다.

우리는 이 로봇을 관리해서 원하는 페이지가 노출되게, 혹은 노출이 안되도록 할 수 있습니다.

robots.txt파일은 html마크업 코드가 없고 웹사이트의 다른 파일들처럼 웹서버에서 호스팅 됩니다. 파일은 사이트의 어디에도 연결되지 않아 사용자가 파일을 볼 일은 적지만 대부분의 웹 크롤러 봇들은 나머지 사이트를 크롤링하기 전에 이 파일을 찾습니다.

웹 크롤러같이 찾한 로봇은 도메인의 다른 페이지를 보기전에 robots.txt를 보고 하지 말라는 건 안합니다.반면, 나쁜 로봇은 robots.txt파일을 무시하거나 금지된 웹페이지를 찾으려고 합니다.

모든 서브 도메인에 자체 robots.txt파일이 필요합니다.

위치

robots.txt를 적용할 웹사이트의 최상위 디렉토리에 적용하면됩니다.

ex)www.watchout31337@tistory.com/robots.txt

robots.txt. 기본문법

-User-agent:검색봇의 이름,웹 사이트 관리자가 어떤 종류의 로봇이 크롤링을 하는지 알 수 있게 돕는다.

-Disallow : 이 명령은 어떤 웹페이지 url을 크롤링 하지 않아야 하는지 알려준다.

-Allow : 특정 웹페이지나 디렉토리에 접근하라는 명령

-crawl-delay : 검색엔진 스파이더 봇이 서버를 과도하게 사용하지 못하도록 대기하라는 명령

-Robots Exclusion Protocol:보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹페이지를 작성하는 프로토콜

-Sitemaps Rrotocol

사용법

'File:'robots.txt',User-agent:*/' 이렇게 적어놓으면 검색로봇의 검색대상에서 제외된다.

'User-agent:*,Disallow:/' -> *는 모든 로봇을 뜻하고, /는 모든 디렉토리를 뜻한다. 즉, 모든로봇이 모든 디렉토리 접근을 불허.

'User-agent:Googlebot,Disallow: ,User-agent:*,Disallow:/' -> 구글봇만 허용하고 나머지는 모두 차단.

구글의 로봇의 위치입니다.

http://www.google.com/robots.txt

들어가보면 구글의 설정들을 볼 수 있습니다.