틀린 부분 있다면 언제든지 지적 부탁드립니다. 마지막 수정 (09/16) 결정 트리 결정 트리는 어떤 항목에 대한 입력변수와 목표 변수를 연결 시켜주는 모델링 방법이다.
이 모델은 트리 형태라서 시각적이며 명시적인 방법으로 의사 결정 과정과 결과를 쉽게 볼 수 있다. 때문에 데이터 마이닝에서 주로 사용되는 모델이다.
데이터 마이닝에 사용되는 결정 트리가 크기 두가지 종류가 있다는 것을 미리 알고 가보자. ㆍ분류 트리 : 목표 변수를 통해 입력 변수를 분류할 수 있는 경우 ㆍ회귀 트리 : 목표 변수가 특정 의미를 가진 실수인 경우 분류 트리 : 지니 불순도(Gini Impurity) 분류 트리의 목표는 학습 데이터를 여러번 분류해보며, 가장 데이터를 적절하게 잘 분류할 수 있는 어떤 노드를 찾아내는 것이다.
이를 위해서는 손실 함수와 같이 데이터를 잘 분류했는지에 대한 기준이 필요하다. 분류 트리에서는 지니 불순도를 사용하여 기준을 잡는다.
지니 불순도는 분류 데이터가 얼마나 섞여 있...
원문 링크 : (머신 러닝) 분류 알고리즘 / 결정트리와 지니 불순도