RDD(Resilient Distributed Dataset) 스파크의 데이터 구조로 병렬처리 가능하며 복구 기능이 있습니다. 스파크 데이터 구조 다수의 서버에 걸쳐 분산 방식으로 저장된 요소들의 집합 병렬 처리가 가능 장애 발생시 스스로 복구 https://blog.skby.net/nosql-base-%EC%86%8D%EC%84%B1/ 하둡 클러스터에서 빅데이터를 분산 저장 및 처리하는 오픈소스.
파일시스템 HDFS + 프레임워크 맵리듀스로 시작됨. 하둡 에코 시스템으로 발전하고 있음. https://dev-baek.tistory.com/11 HDFS(Hadoop Distributed File System) 하둡 분산형 파일시스템 데이터를 블록으로 클러스터에 분산 저장해 빅데이터 처리에 필요한 확장성 및 처리량 제공 HDFS에서 데이터를 읽고 쓰는 과정 ?
네임노드에서 데이터 노드의 정보를 확인함 데이터 노드에 저장하거나 읽음. https://dev-baek.tistory.com/...
원문 링크 : 데이터엔지니어 기술 면접 모의 질문