로딩
요청 처리 중입니다...

(데이터 과학) jaccard similarity

 (데이터 과학) jaccard similarity

자카드 유사도 (jaccard similarity) 자카드 유사도는 두 집합 간의 유사도를 구하는 연산이다. 분자에서는 두 집합의 교집합의 크기를 구하고 분모에서는 두 집합의 합집합의 크기를 구한다.

두 집합의 교집합 크기를 합집합 크기로 나누는 것이 자카드 유사도 연산이다. 단, 각 차원에서의 값이 0 또는 0이 아닌 값이 아니라 수치 자체에 대해서 자카드 유사도를 구하려고 한다면 위 연산의 두 번째 줄 수식과 같이 벡터의 각 차원의 숫자에 대해서 min, max 연산을 통해 계산이 가능하다.

보통 희소 데이터(sparse data)를 다루는 경우 주로 사용하는 방법이다. def jaccard_similarity(x, y) -> torch.Tensor: out = torch.stack([x, y]).min(dim=0)[0].sum() / torch.stack([x, y]).max(dim=0)[0].sum() return out 장점 0이 많이 나오는 경우에도 모두 고려한다. 자카드...