토픽 모델링(Topic modeling) 대량의 문서 집합에서 숨겨진 주제(Topic)를 자동으로 찾아내는 통계적 모델링 방법이다. 수많은 문서들을 사람이 직접 읽고 주제를 파악하는 대신 토픽 모델링 방법으로 각 문서가 어떤 주제들로 구성되어 있는지 각 주제는 어떤 단어들로 표현되는지 알 수 있다.
가장 널리 사용되는 토픽 모델링 알고리즘 중 하나는 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)이다. LDA는 아래와 같은 간단한 가정에서 출발한다.
문서는 여러 개의 주제로 구성되어 있다. 예를 들어 어떤 뉴스 기사는 80%의 정치, 20%의 경제 주제를 가질 수 있다.
각 주제는 특정 단어의 분포들로 표현된다. 예를 들어 경제 주제에는 주식, 금리, 투자와 같은 단어들이 자주 등장한다.
LDA는 이러한 가정을 바탕으로 주어진 문서 집합을 가장 잘 설명할 수 있는 주제-단어 분포와 문서-주제 분포를 역으로 추정한다. 논문 작성 시 토픽 모델링 활용 방...