4.1 데이터 준비와 불러오기 머신러닝 파이프라인에서 데이터를 어떻게 불러오고 준비하느냐는, 모델 성능만큼이나 중요한 요소입니다. 데이터의 품질이 모델 성능을 좌우하기도 하며, 전처리나 클리닝 과정을 잘못 진행하면 유의미한 결과를 얻기 어렵기 때문입니다.
여기서는 다양한 데이터 포맷(CSV, Excel, JSON, SQL)에서 데이터를 읽어와 Pandas의 DataFrame 형태로 만드는 과정을 예제로 살펴봅니다. 이후 단계에서 본격적인 전처리나 시각화, 머신러닝 모델 적용이 가능해집니다. 1) CSV 파일 불러오기 (1) CSV 파일이란?
CSV(Comma-Separated Values)는 가장 흔히 쓰이는 텍스트 기반 표 형식으로, 쉼표(,)를 구분자로 하여 각 필드를 구분합니다. 간단한 구조 덕분에 많은 시스템(엑셀, DB, 각종 툴)에서 호환이 잘됩니다. (2) Pandas에서 CSV 불러오기 기본 문법: import pandas as pd df = pd.read_csv("m...
원문 링크 : 파이썬과 함께하는 머신러닝:4.1 데이터 준비와 불러오기