본문 바로가기

교육

계층적 군집분석 │ 와드(Ward) │ 유클리디안 거리

군집분석은 비슷한 속성을 가진 분석대상을 몇 개의 집단으로 묶고 각 집단의 특징을 파악하여 전체 데이터를 탐색하는 방법입니다. 몇 개의 집단으로 묶기 위해서는 묶이는 집단 간 유사도가 필요합니다. KHCoder3에서 제공하고 있는 유사도 계산 방법은 지난 포스팅에서도 소개했습니다만, 이번 포스팅에서는 유클리디안 거리에 대하여 정리하고 계층적 군집분석을 테스트해보겠습니다. 

 

1. 계층적 군집분석의 거리 계산 방법

개별 분석 대상 간의 거리를 기준으로 수형도 즉 나무 모양의 계층구조를 상향식으로 만들어 가는 방법입니다. 거리를 계산하는 방법에 따라 단일결합, 완전결합, 평균결합, 중심경합 그리고 와드(Ward)기준이 있습니다. 단일결합은 최소거리를, 완전결합은 최대거리를, 평균결합은 평균거리를, 중심결합은 집단의 중심값을 거리 기준으로 이용하고, 와드기준은 보통 유클리디안 거리를 각각 이용합니다. 이 중 KHCoder3에서는 완전결합, 평균결합 그리고 와드 기준을 각각 제공합니다. 

유클리디안 거리 계산 개념
유클리디안 거리 계산 개념

 

2. 계층적 군집분석 사례 

KHCoder3와 경영철학 텍스트를 이용하여 계층적 군집분석을 시도해보겠습니다. 
KHCoder3 메뉴에서  Tools > Words > Hierarchical Clustering Analysis 실행합니다. 

계층적 군집분석 선택
계층적 군집분석 선택

그 다음 분석 옵션에서 2회 이상 출현한 명사만 사용합니다. 군집분석 옵션의 경우 방법은 와드(Ward), 거리는 유클리디안 그리고 군집 수는 일단 Auto로 지정한 후 ok 확인합니다. 

계층적 군집분석 옵션 지정
계층적 군집분석 옵션 지정

 

3. 계층적 군집분석 결과 

계층적 군집분석 방법 와드, 거리 기준은 유클리디안 그리고 군집 수는 Auto로 지정한 분석결과가 다음 그림입니다. 총 4개의 군집이 형성되었음을 확인할 수 있습니다. 

계층적 군집분석 결과 : 군집 수 Auto 기준
계층적 군집분석 결과 : 군집 수 Auto 기준

 

군집 수를 Auto 대신 3개로 지정했을 경우의 분석결과는 다음 그림과 같습니다. 조직 구성원들과 이해관계자들의 행복을 추구한다는 SK그룹의 경영철학이 도드라지게 보이는 결과같습니다. 

계층적 군집분석 결과 : 군집 수 3개 기준
계층적 군집분석 결과 : 군집 수 3개 기준

 

4. 정리

이번 포스팅에서는 KHCoder3가 제공하는 텍스트 마이닝 분석 방법 중 계층적 군집분석 방법(와드, 유클리디안 기준)에 대하여 정리해보았습니다. 군집분석은 이번 포스팅에서 살펴본 계층적 군집분석 이외에도 비계층적 군집분석, 중복군집분석도 있습니다. 기회가 되면 다른 포스팅에서 관련 내용도 한 번 정리해보겠습니다. 

 

유사도 지수 차이 비교 │ Jaccard │Dice│ Simpson 계수 │KH Coder3 동시출현네트워크분석

KH Coder3가 제공하는 유사도 지수 계산 방법은 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수, 코사인(Cosine), 유클리디안 (Euclidean)이 있습니다. 이들 유사도 지수 계측 방법은 KH Coder3가 제공하는 텍

e-datanews.tistory.com

다음 포스팅에서는 KH Coder3가 제공하는 유사도 지수 계측 방법 중 자카드 지수, 다이스 지수 그리고 심슨 지수에 관하여 정리하겠습니다.