크롤링을 하려면 1.개발자도구를 이용해 웹사이트를 분석하고, 2. 크롤링 코드를 작성하고, 3.
파일 저장 및 데이터 분석하는 단계를 거칩니다. 어떤 웹사이트는 크롤링을 막은 경우도 있지만 그런 경우 우회하는 방법도 배울 예정입니다.
앞에서 "requests"와 "BeautifulSoap" 라이브러리를 배웠습니다. "requests"는 웹 자원을 요청하는 것이고, "BeautifulSoap"은 불러온 웹 자원을 파싱하고 분석하는 방법을 제공하는 모듈입니다.
"BeautifulSoap"은 여러 메서드를 제공합니다. "find"는 하나의 태그를 찾아주는 메서드이고, "find_all"은 여러 태그를 리스트로 찾는 메서드이며, "select"는 선택자 문법으로 여러 태그를 찾도록 해 줍니다.
"find_all"을 사용하여 태그를 불러오는 예제를 돌려 봤습니다. 요즘은 예제가 잘 돌면 가슴을 쓸어내립니다. import requests from bs4 import BeautifulSoup a...
#
BeautifulSoap
#
bs4
#
웹크롤링
#
크롤링
#
파싱