kqng_diary의 네이버 블로그 포스트 목록: 2 페이지

Naver Blog

HDFS 구조[5] 데이터 조회(하둡)

이번 포스팅에서는 HDFS에서 파일 읽기에서 데이터를 어떻게 조회하는지 알아보겠습니다. [HDFS 파일 읽기] - 클라이언트에서 네임 노드의 입력 스트림 객체(DFSInputStream)를 통해 스트림 객체를 생성한다. - 생성된 스트림 객체를 이용하여 기본 블록의 10 배수 만큼 조회한다. - 클라이언트 스트림 객체에서 블록 리더기를 생성한다. - DFSInputStream은 파일을 모두 읽을때까지 블록을 조회한다. 모두 읽었다면 close를 통해 닫아야 한다. 1. Client에서 DFSClient에게 읽기 요청을 합니다. : read() 호출 2. DFSInputStream에서 네임 노드로 블록 위치를 요청합니다.: getBlockLocations() 호출 3. 요청 받은 블록 위치를 반환해줍니다. 4. 블록 리더기를 생성합니다. > 이 때 블록이 저장된 데이터 노드가 같은 서버에 있다면 BlockReaderLocal을 생성하고 원격에 있다면 RemoteBlockReader를

원문보기 내부링크

Naver Blog

HDFS 구조[3] 데이터 전송(하둡)

이번 포스팅에서는 HDFS가 파일 저장 요청을 받은 뒤 어떻게 데이터 전송을 하는지에 대해 정리했습니다. [HDFS 파일 저장] - 클라이언트에서 먼저 네임노드와 통신 과정을 통해 스트림(DFSOutputStream)을 생성한다. - 생성된 스트림을 통해 클라이언트에서 파일을 각 데이터 노드에 전송한다. 이 때 저장한 파일은 패킷단위로 나누어서 저장한다. - 파일 전송이 완료되면 클라이언트에서는 네임노드에서 얻은 스트림을 close하고, 남은 모든 패킷이 flush 된다. - 클라이언트에서 네임노드의 complete 메소드를 호출해서 정상적으로 저장되었다면 true 반환, 파일 저장 완료 지난번에는 스트림 생성 과정에 대해 알아보았다면 이번엔 생성된 스트림을 바탕으로 데이터 노드에 어떻게 데이터를 전송하는지 설명해보겠습니다. 그림이 복잡한 편이지만 번호를 매겨놨으니 번호를 잘 따라서 설명을 보시면 도움이 되실겁니다. 1. 클라이언트에서 저장 요청을 합니다. > 클라이언트에서 DFSO

원문보기 내부링크

Naver Blog

Porto Seguro’s Safe Driver Prediction[1](안전한 운전자 예측, 캐글)

번역본 링크: https://colab.research.google.com/drive/1b-L1YNurN884mrbzZLDkE3JP-pwbt_5J Google Colaboratory colab.research.google.com 원본 링크: https://www.kaggle.com/bertcarremans/data-preparation-exploration Data Preparation & Exploration Using data from Porto Seguro’s Safe Driver Prediction www.kaggle.com 이번에 포스팅할 내용은 캐글의 Porto Seguro’s Safe Driver Prediction라는 대회의 커널 번역본입니다. 대회의 취지는 수년간 안전하게 운전을 한 운전자도 많은 보험료를 내는 부분을 해결하고자 운전 데이터들을 토대로 좋은 운전자와 나쁜 운전자를 예측하고, 더 많은 운전자에 대한 자동차 보험 접근성을 높이는 것입니다. 캐글의 커널들을

원문보기 내부링크

Naver Blog

Porto Seguro’s Safe Driver Prediction[2](안전한 운전자 예측, 캐글)

번역본 링크: https://colab.research.google.com/drive/1TbMWFhUJ7Kxc6ZluXDvF4C0md8wkDm4U Google Colaboratory colab.research.google.com 원본 링크: https://www.kaggle.com/aharless/xgboost-cv-lb-284 XGBoost CV (LB .284) Using data from Porto Seguro’s Safe Driver Prediction www.kaggle.com 이번에 포스팅할 내용은 캐글의 Porto Seguro’s Safe Driver Prediction라는 대회의 커널 번역본입니다. 지난번 커널은 피처들을 어떻게 다룰지에 대해 초점이 맞춰져 있었다면, 이번 커널은 제출을 위한 큰 틀을 짜보는 커널입니다. [1]번 커널을 공부하지 않으셨다면 먼저 해보시는걸 추천합니다. 대회의 취지는 수년간 안전하게 운전을 한 운전자도 많은 보험료를 내는 부분을 해결하고자

원문보기 내부링크

Naver Blog

Bike Sharing Demand(자전거 대여량 예측, 캐글)

첨부파일 : 문제를 분석한 주피터노트북 파일, HTML 파일 맨 아래 있습니다. 이번에 포스팅할 내용은 데이터 경진대회 사이트인 캐글의 문제 Bike Sharing Demand 입니다. 날씨, 요일, 휴일, 기후, 온도 등 주어진 데이터를 이용해 자전거의 대여량을 예측하는 문제입니다. 링크는 다음과 같습니다. https://www.kaggle.com/c/bike-sharing-demand Bike Sharing Demand Forecast use of a city bikeshare system www.kaggle.com 캐글 공부를 하면서 제가 느끼기에 불편했던 점인 영어로만 써있는 커널을 한글로 정리도 함과 동시에, 머리에만 있는 생각들을 말이나 글로 풀어내보는 훈련을 위해 여러 사람들과 공유하려합니다. (영어 공부를 하세요.... ㅠㅠ) ㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡㅡ 첨부파일은 다음과 같이 분석을 해보았습니다. 첨부파일 중 HTM

원문보기 내부링크

Naver Blog

타이타닉 문제 분석해보기(Kaggle, 캐글)

첨부파일 : 타이타닉 문제를 분석한 주피터노트북 파일, HTML 파일 맨 아래 있습니다. 이번에 포스팅할 내용은 데이터 경진대회 사이트인 캐글의 대표적인 문제 Titinic: Machine Learning from Disaster 입니다. 좌석 등급, 성별, 나이 등 주어진 데이터를 이용해 탑승자의 생존 여부를 예측하는 문제입니다. 링크는 다음과 같습니다. https://www.kaggle.com/c/titanic/ Titanic: Machine Learning from Disaster Start here! Predict survival on the Titanic and get familiar with ML basics www.kaggle.com 캐글 공부를 하면서 제가 느끼기에 불편했던 점인 영어로만 써있는 커널을 한글로 정리도 함과 동시에, 머리에만 있는 생각들을 말이나 글로 풀어내보는 훈련을 위해 여러 사람들과 공유하려합니다. (영어 공부를 하세요.... ㅠㅠ) ㅡㅡㅡㅡㅡㅡㅡㅡ

원문보기 내부링크

kqng_diary의 등록된 링크

HDFS 구조[5] 데이터 조회(하둡)

HDFS 구조[3] 데이터 전송(하둡)

Porto Seguro’s Safe Driver Prediction[1](안전한 운전자 예측, 캐글)

Porto Seguro’s Safe Driver Prediction[2](안전한 운전자 예측, 캐글)

Bike Sharing Demand(자전거 대여량 예측, 캐글)

타이타닉 문제 분석해보기(Kaggle, 캐글)