로딩
요청 처리 중입니다...

데이터엔지니어 기술 면접 모의 질문

 데이터엔지니어 기술 면접 모의 질문

RDD(Resilient Distributed Dataset) 스파크의 데이터 구조로 병렬처리 가능하며 복구 기능이 있습니다. 스파크 데이터 구조 다수의 서버에 걸쳐 분산 방식으로 저장된 요소들의 집합 병렬 처리가 가능 장애 발생시 스스로 복구 https://blog.skby.net/nosql-base-%EC%86%8D%EC%84%B1/ 하둡 클러스터에서 빅데이터를 분산 저장 및 처리하는 오픈소스.

파일시스템 HDFS + 프레임워크 맵리듀스로 시작됨. 하둡 에코 시스템으로 발전하고 있음. https://dev-baek.tistory.com/11 HDFS(Hadoop Distributed File System) 하둡 분산형 파일시스템 데이터를 블록으로 클러스터에 분산 저장해 빅데이터 처리에 필요한 확장성 및 처리량 제공 HDFS에서 데이터를 읽고 쓰는 과정 ?

네임노드에서 데이터 노드의 정보를 확인함 데이터 노드에 저장하거나 읽음. https://dev-baek.tistory.com/...