로딩
요청 처리 중입니다...

(머신 러닝) 해싱 트릭

 (머신 러닝) 해싱 트릭

해싱 트릭 (feature hasher) 기계학습에 있어서 특성이 너무 많을 경우 특성 해싱 또는 해싱 트릭이라고 불리는 솔루션을 사용할 수 있다. 컴퓨터가 받아들일 수 있는 특성의 개수는 한정적이다.

수치로 예를 들면, 100만 개의 특성을 4000개의 항목으로 압축할 수 있는 방법이 필요하다. 해싱 트릭은 각 특성을 4000개의 인덱스 중 하나로 해싱함으로써 100만개의 특성을 4000개의 특성 공간에 적합시킨다.

그리고 나서 4000차원 특성 벡터의 해당 인덱스에 있는 숫자에 원래 특성의 값을 더한다. 이 방식은 사용 중인 머신러닝 알고리즘이 개별 특성의 값을 더 이상 볼 수 없기 때문에 시스템 정확도에 영향을 미칠 수 있다.

하지만 실제로는 정확도 저하가 경미한 경우가 많고, 특성의 압축 표현으로 얻을 수 있는 이점이 더 많기 때문에 해싱 트릭을 사용한다고 한다. 아래는 기초적인 해싱 트릭 코드이다. def apply_hashing_trick(feature_dict, vect...