티스토리 뷰
robots.txt란
robots.txt란 웹 크롤러와 같은 착한 로봇들의 행동을 관리하는 것입니다.
우리는 이 로봇을 관리해서 원하는 페이지가 노출되게, 혹은 노출이 안되도록 할 수 있습니다.
robots.txt파일은 html마크업 코드가 없고 웹사이트의 다른 파일들처럼 웹서버에서 호스팅 됩니다. 파일은 사이트의 어디에도 연결되지 않아 사용자가 파일을 볼 일은 적지만 대부분의 웹 크롤러 봇들은 나머지 사이트를 크롤링하기 전에 이 파일을 찾습니다.
웹 크롤러같이 찾한 로봇은 도메인의 다른 페이지를 보기전에 robots.txt를 보고 하지 말라는 건 안합니다.반면, 나쁜 로봇은 robots.txt파일을 무시하거나 금지된 웹페이지를 찾으려고 합니다.
모든 서브 도메인에 자체 robots.txt파일이 필요합니다.
위치
robots.txt를 적용할 웹사이트의 최상위 디렉토리에 적용하면됩니다.
ex)www.watchout31337@tistory.com/robots.txt
robots.txt. 기본문법
-User-agent:검색봇의 이름,웹 사이트 관리자가 어떤 종류의 로봇이 크롤링을 하는지 알 수 있게 돕는다.
-Disallow : 이 명령은 어떤 웹페이지 url을 크롤링 하지 않아야 하는지 알려준다.
-Allow : 특정 웹페이지나 디렉토리에 접근하라는 명령
-crawl-delay : 검색엔진 스파이더 봇이 서버를 과도하게 사용하지 못하도록 대기하라는 명령
-Robots Exclusion Protocol:보안이 필요한 내용이 검색엔진에 유출되지 못하도록 웹페이지를 작성하는 프로토콜
-Sitemaps Rrotocol
사용법
'File:'robots.txt',User-agent:*/' 이렇게 적어놓으면 검색로봇의 검색대상에서 제외된다.
'User-agent:*,Disallow:/' -> *는 모든 로봇을 뜻하고, /는 모든 디렉토리를 뜻한다. 즉, 모든로봇이 모든 디렉토리 접근을 불허.
'User-agent:Googlebot,Disallow: ,User-agent:*,Disallow:/' -> 구글봇만 허용하고 나머지는 모두 차단.
구글의 로봇의 위치입니다.
http://www.google.com/robots.txt
들어가보면 구글의 설정들을 볼 수 있습니다.
'웹 해킹 > 웹 공부' 카테고리의 다른 글
정규표현식 (0) | 2020.07.25 |
---|---|
소켓(socket)이란 (0) | 2020.07.23 |
구글 도크 (0) | 2020.07.21 |
base 64 encoding. (0) | 2020.07.20 |
URL encoding. (0) | 2020.07.20 |
- Total
- Today
- Yesterday
- AE
- SOME/IP
- porks
- json2html
- Ethernet
- automotive ethernet
- Python
- 차량 네트워크
- 머신러닝
- AVB
- many-to-many
- 케라스
- 이상탐지
- PCA
- 단순선형회귀
- problem statement
- 딥러닝
- AVTP
- one-to-many
- 논문 잘 쓰는법
- HTML
- 차량용 이더넷
- many-to-one
- automotive
- cuckoo
- 로지스틱회귀
- SVM
- CAN-FD
- 회귀
- 크로스 엔트로피
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |