TIL

9장 웹 크롤러 설계

웹 크롤러란

웹 크롤러 개략 설계

웹 크롤러 컴포넌트

image

웹 크롤러 작업 흐름

  1. 시작 URL들을 미수집 URL 저장소에 저장
  2. HTML 다운로더는 미수집 URL 저장소에서 URL 목록을 가져온다.
  3. HTML 다운로더는 도메인 이름 변환기를 사용하여 URL IP 주소를 알아내고 해당 IP 주소로 접속해 웹 페이지를 다운
  4. 콘텐츠 파서는 다운된 HTML을 파싱하여 올바른 형식인지 검증
  5. 파싱과 검증이 끝나면 중복 콘텐츠를 확인하는 절차 개시
  6. 중복 콘텐츠인지 확인하기 위해 해당 페이지가 이미 저장소에 있는지 확인
    1. 이미 저장소에 있으면 버린다.
    2. 저장소에 없는 콘텐츠는 저장소에 저장한 뒤 URL 추출기로 전달
  7. HTML 페이지에서 링크를 추출
  8. 골라낸 링크를 URL 필터로 전달
  9. 필터링 후 남은 URL만 중복 URL 판벌 단계로 전달
  10. 이미 처리한 URL인지 확인하기 위해 URL 저장소를 살피고 있는 URL은 버린다.
  11. 저장소에 없는 URL은 URL 저장소에 저장한 뒤 미수집 URL 저장소에도 전달

상세 설계

DFS를 쓸 것인가, BFS를 쓸 것인가

예의

우선순위

image

신선도

미수집 URL 저장소를 위한 지속성 저장 장치

HTML 다운로더

마무리 - 추가로 논의해볼만한 점