파이썬(python), 한글 한국어 자연어 처리 NPL위한 임베딩(embedding)의 가장 기본인 Bag of Wors, DTM, TF-IDF 부터 이해하자... 한국어와 영어 등 모든 인간이 사용하는 자연어를 컴퓨터가 처리하기 위해서는 컴퓨터가 이해할 수 있수 있는 언어로 바꿔줘야 하는데 이를 자연어 처리 NLP 과정에서 임베딩(embedding)이라고 한다.
즉, 컴퓨터가 텍스트를 받아들여 이해하고, 이어질 단어를 예측하고, 단어의 정서를 파악할 수 있도록 단어나 문장을 크기와 방향을 가지는 벡터 형태로 표현해야 한다. 단어와 문서에 벡터 형태의 숫자를 부여하면 단어와 문서의 유사성 및 연관성 등 자연어 처리를 통한 다양한 분석이 가능하다.
우선 임베딩에 가장 기초적인 BOW와 DTM, TF-IDF를 살펴보자. 한글 Bag of Words Bag of Words(단어 가방) Bag of Words는 단어들을 모아 놓은 단어 가방으로 BOW라고 부른다.
BOW는 문서나 문장에 등...
#
파이선
#
파이썬함수
#
파이썬코딩
#
파이썬인강
#
파이썬알고리즘
#
파이썬설치
#
파이썬데이터분석
#
파이썬데이터
#
파이썬강의
#
혼자공부하는