Project & Module/Crawler 썸네일형 리스트형 [WebMagic] Analyze 1. Spider1. addUrl1. addRequest(url)1. scheduler.push(request, this) (** 2.1 이동 **)2. thread1. checkIfRunning1. 실행중인지 체크2. 입력 파라미터 threadNum 값 세팅3. run1. checkRunningStat1. state 체크 (STAT_RUNNING 이면 예외 처리)2. initComponent1. downloader 세팅2. pipelines 세팅3. downloader 스레드 세팅4. threadPool 세팅5. startRequest 세팅3. while loop (조건 interrupted 상태가 아닌지, 실행중인지)1. Queue 에서 Request 하나 poll 해옴.2. request 여부에 따.. 더보기 [Crawler] 구현 시 주의사항 구현 시 주의사항 http://jakarta.tistory.com/37 더보기 [Crawler] Robots.txt 설명 https://korea.googleblog.com/2008/04/robotstxt.html 참조 요약하자면 Robots.txt 를 통해 Crawler 가 Cralwing 할 때 Allow, DisAllow 에 대해 알려줌. 해당 사이트의 Root 위치에 Robots.txt 가 있어야 함. 더보기 이전 1 다음