우리 스크래핑 쉽게 해요 BeautifulSoup을 이용하여 크롤링을 할 때, 저는 원래 find()와 find_all() 메소드를 이용했습니다. 하지만 select()의 유용함을 알고 난 이후로 find()와 find_all()은 거의 사용하지 않았는데요.
상당히 유용한 이유에 대해 정리해보겠습니다. BeautifulSoup이란?
일단 BeatifulSoup 모듈에 익숙하지 않은 분들은 이를 왜 이용하는지 의아하실텐데요. html 문서를 받아와도 이는 단순한 문자 텍스트입니다. 이런식의 string자료형에서 여러분이 원하는 정보를 찾기에는 너무 힘듭니다.
그래서 html문서 구조인 요소를 이용해서 원하는 정보를 골라내야 하는데요. 이를 흔히 웹스크래핑이라고 합니다.
즉 html 문서를 사람이 보기 쉽게 만들어서 스크래핑을 도와주는 것이 BeautifulSoup입니다. html문서 구조에서 하나의 요소는 보통 아래처럼 3가지로 이루어져 있습니다. 태그(시작태그와 종료태그), 속성(속...
#
bs4
#
크롤링
#
웹크롤링
#
웹스크래핑
#
스크래핑
#
뷰티플숩
#
select메소도
#
id값
#
html구조
#
findall
#
파이썬
원문 링크 : BeautifulSoup의 select메소드 짱짱 유용