이번 포스팅에선 하둡을 이루는 주요 구성요소인 HDFS와 맵리듀스 중 맵리듀스에 대하 간략하게 이해해보도록 하겠습니다. [맵리듀스] 맵: 입력 파일을 1줄식 읽어서 변형한다.
리듀스: 변형된 결과(맵의 결과)를 집계한다. 위에서 보듯 맵리듀스는 맵과 리듀스로 구성되어 있습니다.
각각 어떤 역할을 하는지 아래 그림을 통해서 설명해보도록 하겠습니다. Good Morning John 이라는 문장이 적힌 파일 1개와, Good Night John 이라는 문장이 적인 파일 1개가 있습니다.
맵을 통해서 하고싶은 것은 문장에 있는 각 단어의 등장 횟수를 표시하도록 변형하는 것입니다. 따라서 Good Morning John이라는 문장을 Good 1 / Morning 1 / John 1 이런식으로 변형해주었고 Good Night John도 마찬가지로 Good 1 / Night 1 / John 1 형태로 변형해주었습니다.
Reduce는 Map을 거쳐 나온 파일들을 하나로 합쳐 집계하는 역할을 합니다...
#
하둡
#
맵리듀스
#
맵
#
리듀스
#
reduce
#
map
#
hadoop
#
mapreduce
#
파일
#
출력
#
입출력
#
입력
#
분산처리
#
분산저장
#
분산
#
문장
#
good
#
input
#
system
#
john
#
output
#
night
#
morning
#
file
원문 링크 : 맵리듀스(MapReduce)의 이해