본문 바로가기

교육

유사도 지수 차이 비교 │ Jaccard │Dice│ Simpson 계수 │KH Coder3 동시출현네트워크분석

KH Coder3가 제공하는 유사도 지수 계산 방법은 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수, 코사인(Cosine), 유클리디안 (Euclidean)이 있습니다. 이들 유사도 지수 계측 방법은 KH Coder3가 제공하는 텍스트 마이닝 분석 방법 중 다차원 척도 법, 계층적 군집분석, 동시 출현 네트워크 분석에 활용되고 있습니다. 이번 포스팅에서는 이 중 계산 방법이 비슷한 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수에 관해 정리하고, 동시 출현 네트워크 분석에 각각 적용하여 각 유사도 지수의 차이점을 살펴보겠습니다.   

 

1. 자카드(Jaccard) 지수 

계산식은 다음과 같습니다. 

자카드(Jaccard) 지수 계산
자카드(Jaccard) 지수 계산

즉, 「단어 X와 단어 Y가 동시에 출현한 수」 ÷ 「단어 X와 단어 Y 중 어느 한쪽에서 출현한 수」라고 할 수 있고, 0과 1사이의 값을 가지게 됩니다. KH Coder3 에서는 단어 A와 단어 B 중 하나 또는 모두를 포함하는 "문서" 중 A와 B를 모두 포함하는 "문서"의 수의 비율입니다. 특히 엑셀 형식의 데이터라면 1개 셀의 문장이 문서가 됩니다. 가령, A라는 단어가 80개의 문서에 등장하고, B라는 단어가 100개의 문서에서 등장했고, A와 B가 함께 등장하는 문서가 20개라면, 자카드 계수는 0.125로 계산할 수 있습니다. 

 

2. 다이스(Dice) 지수 

다이스(Dice) 지수의 계산식은 다음과 같습니다. 즉 2 × ( 「단어 X와 단어 Y가 동시에 출현한 수」) ÷ 「단어 X 출현한 수 + 단어 Y 출현한 수」의 비율로서 역시 0과 1 사이의 값을 가집니다. 

다이스(Dice) 지수 계산
다이스(Dice) 지수 계산


결국 다이스(Dice) 지수는 자카드(Jaccard) 지수에 비해 동시에 출현한 단어 수의 영향에 가중치를 부여하고, 동시에 출현하지 않은 단어 수의 영향을 줄이는 방법이라 할 수 있습니다. 위 계산 사례를 다이스(Dice) 지수에 적용하면 0.222의 값을 구할 수 있겠습니다. 

 

3. 심슨(Simpson) 지수

심슨(Simpson) 지수의 계산식은 다음과 같습니다.

심슨(Simpson) 지수 계산
심슨(Simpson) 지수 계산

즉, 「단어 X와 단어 Y가 동시에 출현한 수」 ÷ 「출현한 수가 적은 단어 X 또는 단어 Y 선택」라고 할 수 있고, 0과 1 사이의 값을 가지게 됩니다. 위 계산 사례를 심슨(Simpson) 지수에 적용한다면, 계측 결괏값은 0.25가 됩니다. 결국 심슨(Simpson) 지수는 다이스(Dice) 지수보다 더 동시 출현 단어 수를 중요시하는 유사도 지수 계산 방법이라고 이야기할 수 있습니다. 

 

4. 자카드(Jaccard) 지수에 의한 동시 출현 네트워크 분석

이전 포스팅에서 다루었던 경영철학 데이터를 이용하여 자카드(Jaccard) 지수에 의한 동시 출현 네트워크 분석을 실행한 결과는 다음과 같습니다. 결과에서 확인할 수 있는 바와 같이 단어 간 유사도 지수값이 0.33에서 1.0 값을 가집니다. 

 

자카드(Jaccard) 지수에 의한 동시 출현 네트워크 분석
자카드(Jaccard) 지수에 의한 동시 출현 네트워크 분석

 

5. 다이스(Dice) 지수에 의한 동시 출현 네트워크분석

다이스(Dice) 지수에 기초한 동시출현네트워크 분석 결과입니다. 단어 간 유사도 지수값이 0.5에서 1.0의 값을 가집니다 

다이스(Dice) 지수에 의한 동시 출현 네트워크분석
다이스(Dice) 지수에 의한 동시 출현 네트워크분석

 

6. 심슨(Simpson) 지수에 의한 동시 출현 네트워크 분석

심슨(Simpson) 지수에 기초한 동시 출현 네트워크 분석 결과입니다. 모든 단어 간 유사도 지수값이 1.0 임을 확인할 수 있습니다. 

심슨(Simpson) 지수에 의한 동시 출현 네트워크 분석
심슨(Simpson) 지수에 의한 동시 출현 네트워크 분석

 

7. 정리

KH Coder3에서 제공하는 유사도 지수 계산 방법 중 계산 방법이 비슷한 3가지 자카드(Jaccard) 지수 , 다이스(Dice) 지수 및 심슨(Simpson) 지수의 계산방법을 비교해보고, 실제 동시 출현 네트워크 분석을 통해 계산 결과를 살펴보았습니다. 결과에서 보듯이 자카드(Jaccard) 지수 < 다이스(Dice) 지수 < 심슨(Simpson) 지수 순으로 단어 간 유사도가 크게 나타나고 있음을 확인하였습니다. 트윗 같은 단문은 자카드(Jaccard) 지수로 유사도 분석이 충분하다고 알려져 있으니 같이 참고하기 바랍니다. 

 

비건 기초 화장품 구매 후기 │고객 리뷰 텍스트 마이닝 │ KH Coder3

지금까지 KH Coder3을 이용한 텍스트 마이닝의 다양한 분석 방법에 대하여 정리하였습니다. 이번 포스팅에서는 실제 비건 기초 화장품 고객 구매 후기를 수집하고, KH Coder3에서 제공하는 대응분석,

e-datanews.tistory.com

다음 포스팅에서는 실제 화장품 구매후기, 즉 고객 리뷰를 이용하여 텍스트 마이닝 기법 중 대응분석 사례를 정리하겠습니다.