로딩
요청 처리 중입니다...

(데이터 전처리) Word Embedding / GloVe

 (데이터 전처리) Word Embedding / GloVe

GloVe 2014년, 카운트 기반과 예측 기반을 모두 사용한 임베딩 방법론인 GloVe가 만들어졌다. GloVe가 탄생하기 이전에는 문서에서의 각 단어 빈도수를 카운트한 정보를 입력으로 하여 차원 축소를 통해 잠재 변수(벡터) 얻는 카운트 기반 방법론과 실제값과 예측값에 대한 오차를 손실 함수를 통해 줄여나가며 학습하여 임베딩 벡터를 얻는 예측 기반의 방법론이 있었다.

각각 장단점이 있는데 카운트 기반 방법론은 전체 통계를 잘 반영하기는 하지만 단어 의미 유추 작업에는 성능이 떨어지며 예측 기반 방법론은 단어의 의미를 파악하는데는 좋은 성능을 보이지만 전체 통계를 잘 반영하지는 못한다. GloVe는 두 방법론에 대한 한계점을 지적하며 카운트, 예측 기반 방법론 모두를 차용한 임베딩 방법이다.

알고리즘 word2vec의 skip-gram에서는 대상 단어를 통해 주변 단어를 예측하도록 네트워크를 구성하여 단어 임베딩 벡터를 학습하였다. GloVe는 대상 단어에 대해서 코퍼스(말뭉치)에...