https://korea.googleblog.com/2008/04/robotstxt.html 참조
요약하자면 Robots.txt 를 통해 Crawler 가 Cralwing 할 때 Allow, DisAllow 에 대해 알려줌.
해당 사이트의 Root 위치에 Robots.txt 가 있어야 함.
'Project & Module > Crawler' 카테고리의 다른 글
[WebMagic] Analyze (0) | 2017.11.17 |
---|---|
[Crawler] 구현 시 주의사항 (0) | 2017.01.17 |