유사도 지수 차이 비교 │ Jaccard │Dice│ Simpson 계수 │KH Coder3 동시출현네트워크분석
KH Coder3가 제공하는 유사도 지수 계산 방법은 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수, 코사인(Cosine), 유클리디안 (Euclidean)이 있습니다. 이들 유사도 지수 계측 방법은 KH Coder3가 제공하는 텍스트 마이닝 분석 방법 중 다차원 척도 법, 계층적 군집분석, 동시 출현 네트워크 분석에 활용되고 있습니다. 이번 포스팅에서는 이 중 계산 방법이 비슷한 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수에 관해 정리하고, 동시 출현 네트워크 분석에 각각 적용하여 각 유사도 지수의 차이점을 살펴보겠습니다. 1. 자카드(Jaccard) 지수 계산식은 다음과 같습니다. 즉, 「단어 X와 단어 Y가 동시에 출현한 수」 ÷ 「단어 X와 단어..
더보기
KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석
이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다. 1. 두 개 이상의 문서 준비 KHCoder3 폴더내 test라는 새로운 폴더를 만들고, 아래 test01, test02, test03 파일을 test 폴더에 각각 저장합니다. text01, 인하대학교 국제통상학과에 재학중입니다. text02, 인하대학교 공학대학원에 재학중입니다. text03, 인하대학교는 인천에 있습니다. 2. 텍스트 데이터 호출하기 KH Coder3를 실행시킨 후, 상단 메뉴에서 project > import > Multiple texts in a fold를 클릭합니다. 새 창이 뜨면 browse 버튼을..
더보기