1. 자료의 분류 01.
텍스트 자료의 분류 영화 리뷰와 같이 사람들의 태도, 의견, 성향과 같은 주관적인 텍스트 자료에서 긍정, 부정, 중립과 같은 감정을 파악하는 기술을 감성 분석이라 하는데, 긍정 단어 가방과 부정 단어 가방에 포함된 단어들과 비교하여 텍스트 자료들 사이의 유사한 정도를 수치화하여 나타낸 유사도 similarity 를 이용하여 감성 분석을 한다. 집합을 이용하는 자카드 유사도 : 두 문장 사이에 공통된 단어의 비율을 나타내는 것으로 두 문장에 대한 공통적으로 포함된 단어들의 개수와 전체 단어의 개수의 비로 나타낸다.
긍정 단어의 유사도와 부정 단어의 유사도 간의 차이를 기준값(일반적으로 0.25)과 비교하여 긍정, 중립, 부정의 감성 분석을 내린다. 벡터를 이용한 유클리디안 유사도 : A와 B의 거리벡터를 이용하여 그 값이 0에 가까울수록 유사하다고 판단, 이러한 긍정과 감정의 유사도를 비교하여 긍정, 중립, 부정의 감성 분석을 내린다.
벡터를 이용한 코사인 유...
원문 링크 : 인공지능 수학 - 분류와 예측