로딩
요청 처리 중입니다...

(데이터 전처리) WordNet Embedding

 (데이터 전처리) WordNet Embedding

시소리스(어휘 분류 사전) 단어는 내부에 의미를 가지고, 그 의미는 개념과 같기 때문에 계층적 구조를 가진다. 만약 단어의 계층적 구조를 잘 분석하고 분류하여 데이터베이스로 구축한다면 자연어 처리를 할 때 큰 도움이 될 것이다.

이런 용도로 구축된 데이터 베이스를 시소리스(어휘 분류 사전)이라 부른다. 이 포스트에서는 시소리스를 대표하는 WordNet을 다룰 것이다.

WordNet English WordNet WordNet은 1985년부터 프린스턴 대학교에서 만드는 프로그램이다. 기계번역을 돕기 위해 만들기 시작하였으며 '동의어 집합' 또는 '상위어', '하위어' 정보들을 잘 구축했다는 장점이 있다.

WordNet은 프로그램으로 제작되었기 때문에 다운로드받을 수도 있으며 WordNet 웹 사이트에서 곧 바로 사용할 수도 있다. http://wordnetweb.princeton.edu/perl/webwn 또한 NLTK 자연어 처리 라이브러리에 포함되어 있기 때문에 Import하여 바로...