파이썬 python, 토픽 모델링(Topic modeling)을 위해 LDA 방식을 이론적으로 이해해 보자. 토픽 모델링 (Topic Modeling)은 문서 집합에서 주제를 찾아내는 기술이다.
'특정 단어가 자주 등장하는 것이 그 문서의 주제일 가능성이 높다'라는 가정에서 출발한다. 예를 들어 '스타벅스', '카페인', '커피 향기', '모닝커피' 등의 단어들이 다른 문서에 비해 자주 등장한다는 것은 해당 문서의 주제가 '커피'일 것으로 예측할 수 있다. [ 토픽 모델링 TopicModeling 개요 및 LDA 이해 ] 토픽 모델링(Topic Modeling)과 군집 분석(Clustering)의 차이점 토픽 모델링과 군집 분석 모두 관련성이 높은 문서끼리 혹은 단어끼리 묶는다는 점에서 결과론적으로 유사한 측면이 있다.
두 방법 모두 유사한 단어를 그룹화한 후 토픽을 네임밍(naming) 하는 방법도 같다. 두 분석 방법이 계산이나 추정 과정에 차이가 있지만 가장 근본적으로 다른 점...
#
LDA
#
토픽수
#
토픽모델링
#
텍스트마이닝
#
잠재디리클레할당
#
자연어처리
#
TopicModeling
#
textmining
#
python
#
NLP
#
파이썬