로딩
요청 처리 중입니다...

34. [MapReduce] 맵리듀스 원리와 그 과정

 34. [MapReduce] 맵리듀스 원리와 그 과정

1. 서론 빅데이터를 처리하기 위한 과정의 일환으로 맵리듀스라는 강력한 패러다임이 자리잡은지는 꽤 됬다.

맵리듀스는 2006년 구글이 발표한 빅테이블, 구글 파일 시스템(GFS) 등과 결합하며 아파치 재단 아래 '하둡' 이라는 이름의 프로젝트로 발주된다. 하둡에서 맵리듀스와 HDFS(Hadoop Distributed File System) 이 합쳐지니 이전에 없던 강력한 시너지 효과를 발휘했다.

바로 대용량, 기가나 수 테라 단위가 아닌 그야말로 'Big' 한 온갖 데이터를 처리할 수 있게 된 것이다. 간단히 요약하여 말하면, 큰 파일을 여러 개로 쪼갠 다음 여러 개의 머신에 게 나눠주고 그 머신에서 쪼개진 파일을 처리하는 것이다. 2 - (1) Key + Value = Record 맵리듀스의 핵심은 Key-Value 쌍으로 데이터를 처리한다는 것이다.

예를들어서 다음과 같은 데이터를 가정해보자. '사과 - apple, 딸기 - strawberry' 이 데이터는 한국어에 대응되는 영...