웹 크롤링과 웹 스크래핑이라는 두 개념은 종종 혼재되어 사용되기도 하지만, 실제로는 작동 방식과 이용 목적에 차이가 있다. 포스팅 전 간단하게 요약하면 , 웹 크롤링은 웹 사이트의 특정 페이지 혹은 연계된 페이지 URL을 발견하는 과정이고, 웹 스크래핑은 웹 사이트에서 데이터를 추출하는 것을 의미한다.
웹 크롤링이란? 웹크롤링이란 웹상의 정보를 탐색하고 수집하는 작업을 의미한다.
인터넷에 존재하는 방대한 양의 정보를 사람이 일일히 파악하는 것은 불가능하다. 때문에 규칙에 따라 자동으로 웹 문서를 탐색하는 컴퓨터 프로그램, 웹 크롤러를 만들었다.
크롤러는 인터넷을 돌아다니며 여러 웹 사이트에 접속한다. 그리고 페이지의 내용과 링크의 복사본을 생성하여 다운로드하고 요약본을 만든다.
그리고 검색시 유용한 정보만을 노출하도록 검색 색인을 붙인다. 이것은 도서관에서 책을 찾기 위해 도서의 주제, 제목 등에 따라 분류 기준을 구성하는 것과 비슷한 작업이다.
과정이 다소 어렵게 들릴수도 있지만,...
원문 링크 : 웹 크롤링과 웹 스크래핑 차이점