본문 바로가기

교육

KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석

이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다. 

 

1. 두 개 이상의 문서 준비

KHCoder3 폴더내 test라는 새로운 폴더를 만들고, 아래 test01, test02, test03 파일을 test 폴더에 각각 저장합니다. 

text01, 인하대학교 국제통상학과에 재학중입니다. 
text02, 인하대학교 공학대학원에 재학중입니다. 
text03, 인하대학교는 인천에 있습니다. 

text.zip
0.00MB

 

2. 텍스트 데이터 호출하기 

KH Coder3를 실행시킨 후, 상단 메뉴에서 project > import > Multiple texts in a fold를 클릭합니다.

Multiple texts in a fold 선택
Multiple texts in a fold 선택

 

새 창이 뜨면 browse 버튼을 클릭하여 분석할 데이터가 모여있는 폴더를 지정합니다. 

텍스트 데이터 분석 폴더 지정
텍스트 데이터 분석 폴더 지정

 

분석 폴더가 지정되었다면,  Encoding of files에서 Unicode(UTF-8)로 지정한 후, Language는 Korean, 형태소 분석을 위한 사전은 MeCab & HanDic으로 합니다. 여기까지 완료되었다면, OK를 눌러 분석 옵션을 저장합니다. 

unicode 지정
unicode 지정

 

분석 언어 지정
분석 언어 지정

 

3. 전처리 실행

KH Coder3 메뉴 중 PRe-Processing > Run pre-processing 메뉴를 클릭하면, 품사분석까지 자동 실행됩니다. 

전처리 실행 (Run pre-processing)
전처리 실행 (Run pre-processing )

 

4. 빈도 분석 결과 확인

KH Coder3 메뉴 중 Tools > Words > Frequency List 메뉴를 클릭하여 빈도, 형태소 및 품사분석품사 분석 결과를 확인합니다. 텍스트 데이터의 추가 정제 절차가 필요한지 확인해야 합니다만, 이번 포스팅에서는 생략하겠습니다.  그림 하단에 excel을 클릭하면 품사 분석 결과까지 내려받을 수 있으니 참고 바랍니다. 

빈도 분석 결과 확인 (Frequency List)
빈도 분석 결과 확인 (Frequency List)

 

형태소 및 품사 분석 결과 확인
형태소 및 품사 분석 결과 확인

 

빈도, 형태소 및 품사 분석 결과 내려 받기
빈도, 형태소 및 품사 분석 결과 내려 받기

 

5. 동시출현네트워크 분석 결과 확인 

동시출현네트워크 분석 결과를 확인하겠습니다. Tools > Words > Co-occurrence networks 메뉴를 클릭합니다. 동시 출현 네트워크 분석을 위한 옵션 지정 새창이 뜹니다.

동시출현네트워크분석(Co-occurrence networks) 선택
동시출현네트워크분석(Co-occurrence networks) 선택


옵션 지정 새창에서 왼쪽의 빈도를 1로 하고, 명사(Noun)만 선택해보겠습니다. 오른쪽의 분석 옵션은 다음 포스팅에서 설명하기로 하고 이번 포스팅에서는 생략하겠습니다. 

분석 대상 선정(출현 빈도 수, 품사 지정)
분석 대상 선정(출현 빈도 수, 품사 지정)


여기까지 완료되었다면, ok 버튼을 눌러 실행하면, 그림과 같은 동시출현네트워크분석결과를 얻을 수 있습니다. 

동시출현네트워크분석 결과 시각화
동시출현네트워크분석 결과 시각화

 

특히 분석결과에서 특정 단어를 클릭하면 어떤 문서에서 해당 단어가 출현했는지 확인할 수 있어 매우 편리합니다. 

출현 단어들의 문서 확인
출현 단어들의 문서 확인

또한 KH Coder3는 동시 출현 네트워크 분석방법에 3가지 옵션을 제공합니다. 이 중 아래 그림은 매개 중심성 분석 결과를 구현한 것으로 재학이라는 단어의 매개 중심성이 높은 것으로 나타났습니다. 

매개중심성 분석 결과 시각화
매개중심성 분석 결과 시각화

 

6. 정리

이번 포스팅에서는 2개 이상의 문서를 동시에 호출하는 방법, 전처리, 간단한 빈도분석 및 동시 출현 네트워크 분석을 실행해보았습니다. 

 

KH Coder3 복합어와 불용어 처리 방법 │한글 텍스트 마이닝

KH Coder3로 텍스트 마이닝을 시도한 후, 추가적인 전처리가 필요할 수 있습니다. KH Coder3에서는 복합어와 불용어 처리 가능이 내장되어 있습니다. 해당 기능을 이용하여 추가적인 전처리가 가능합

e-datanews.tistory.com

다음 포스팅에서 추가적인 전처리를 위한 복합어와 불용어 처리 방법에 대하여 정리하겠습니다.