로딩
티스토리 데이터 처리 중입니다.

전처리, 분산표현, 임베딩, 토큰화

 전처리, 분산표현, 임베딩, 토큰화

자연어 (Natural) : 인류의 언어. 200가지의 언어 중 40가지 정도가 문자를 가짐. 문맥 의존 언어 (context sensitive language) parsing이 어려움.

문맥, 현실세계의 이해를 필요로 할 때가 많아 단순 파싱이 되지 않음. 착한 영희 친구를 parsing 하여 다 떨어뜨리면, 영희가 착한건가 친구가 착한건가..

She drove down the street in her car. 그녀는 그녀의 차를 타고 길을 운전한건가, 차안에 있는 길을 운전한건가.

인공어 (Artificial) : 프로그래밍 언어. C언어, 파스칼 등등.

문맥 자유 언어 (context free language) parsing이 너무 잘됨. 문맥이 자유로우니 그냥 나누면 끝. 1.

전처리 자연어의 N.....