9장 웹 크롤러 설계

크롤러란, 웹 페이지의 컨텐츠를 찾아 자동으로 검새가고 스캔하는 프로그램을 말한다. 검색 엔진 인덱싱: 크롤러의 가장 보편적인 예시로서, 웹 페이지를 모아 검색 엔진을 위한 로컬 인덱스를 만든다.

구글봇은 구글 검색엔진이 사용하는 웹 크롤러이다. 웹 아카이빙: 나중에 사용할 목적으로 장기보관하기 위해 웹에서 정보를 모으는 절차를 말한다.

웹 마이닝: 크롤러를 사용해 정보를 모으고 해당 정보를 통해 데이터 마이닝을 하는 것을 의미한다. 웹 모니터링: 웹 크롤러를 통해 저작권이나 상표권이 침해된 사례를 찾아낸다. 1단계 문제 이해 및 설계 범위 확정 1.

URL 집합이 주어지면, 해당 URL들이 가리키는 웹 페이지를 다운로드 한다. 2. 다운로드 웹 페이지에서 URL들을 추출한다. 3.

추출된 URL들을 다운로드 할 URL 목록에 추가하고 위의 과정을 처음부터 다시 반복한다. 웹 크롤러는 위 처럼 단순하게 작동하지 않기 때문에 상세한 내용을 살펴봐야 한다.

중요 속성은 다음과 같다. 규...

요청 처리 중입니다...

9장 웹 크롤러 설계

등록된 다른 글