유사도 지수 차이 비교 │ Jaccard │Dice│ Simpson 계수 │KH Coder3 동시출현네트워크분석
KH Coder3가 제공하는 유사도 지수 계산 방법은 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수, 코사인(Cosine), 유클리디안 (Euclidean)이 있습니다. 이들 유사도 지수 계측 방법은 KH Coder3가 제공하는 텍스트 마이닝 분석 방법 중 다차원 척도 법, 계층적 군집분석, 동시 출현 네트워크 분석에 활용되고 있습니다. 이번 포스팅에서는 이 중 계산 방법이 비슷한 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수에 관해 정리하고, 동시 출현 네트워크 분석에 각각 적용하여 각 유사도 지수의 차이점을 살펴보겠습니다. 1. 자카드(Jaccard) 지수 계산식은 다음과 같습니다. 즉, 「단어 X와 단어 Y가 동시에 출현한 수」 ÷ 「단어 X와 단어..
더보기