로딩
요청 처리 중입니다...

python으로 데이터 수집하기 (크롤링)

 python으로 데이터 수집하기 (크롤링)

빅데이터의 분석을 하기위해서는 데이터 수집하는 단계가 필요로 합니다. 데이터 수집은 크게 두 가지로 조직 내부의 데이터웨어하우스(data warehouse)나 데이터베이스 내의 데이터, 조직 외부의 데이터 소스(source)등을 통해 이루어집니다.

후자의 경우 데이터를 사거나, 공공데이터를 이용할수 있고 또는 직접 데이터를 수집(추출)할 수도 있습니다. 원하는 데이터가 있다면 좋겠지만, 그렇지 않은 경우가 많다고 생각됩니다.

그러므로 파이썬으로 데이터 수집(추출) - 크롤링을 해봅시다. 먼저 requests 를 import 해줍니다. requests는 HTTP Library로서 get요청을 통해 웹에서 HTML 파일을 가져올 수있습니다. import requests response = requests.get("https://www.naver.com/") html = response.text print(html) 그리고 BeautifulSoup을 이용해 원하는 데이터를 파싱합니다.

네...

# BeautifulSoup # csv파일 # DataFrame # df # python