본문 바로가기

교육

엑셀 CSV 파일 호출 │ KH Coder3 │ 한글 텍스트 마이닝

KH Coder3에서 엑셀 혹은 csv(comma-separated values) 파일을 호출한 후, 텍스트 마이닝을 실행하겠습니다. 우선 지난 포스팅에서 사용했던 텍스트 파일 3개를 하나의 엑셀 파일로 만들어 둡니다.

 

 

1. 분석 엑셀 파일 준비 

3개의 개별 텍스트 파일을 그림처럼 하나의 엑셀 파일로 만들었습니다. 여기서 중요한 점은 첫 행에는 반드시 변수 이름(text, id)이 들어가야 한다는 점입니다. 

텍스트 데이터를 엑셀 파일로 준비
텍스트 데이터를 엑셀 파일로 준비

 

excel_test.xlsx
0.01MB

 

 

2. KH Coder3 엑셀 파일 호출 방법 

KH Coder3 메뉴에서 Project > New를 열어 Browse를 눌러 호출할 엑셀 파일을 지정합니다. 그다음 텍스트 마이닝할 열을 지정해야 하는데요.

KH Coder3에서 엑셀 파일 호출
KH Coder3에서 엑셀 파일 호출


그림처럼 Target Column를 눌러 텍스트 마이닝을 실행할 변수명을 지정합니다. 이번 포스팅에서는 text라는 변수 아래 칼럼에 분석할 텍스트 데이터가 있습니다. 

텍스트 마이닝 할 Target Column 지정
텍스트 마이닝 할 Target Column 지정


Target Column까지 지정하고 난 후에는 언어를 한글로 선택하고 OK를 누릅니다. 

텍스트 마이닝 언어 지정
텍스트 마이닝 언어 지정

 

3. 전처리 실행 및 분석결과 확인

KH Coder3 메뉴에서 PRe-Processing > Run Pre-Processing를 눌러 전처리를 실행합니다. 전처리가 실행이 완료된 후에는 Tools > Words > co-occurrence network를 열어 처리결과를 확인하면 됩니다. 

동시출현네트워크(co-occurrence network)분석 결과 확인
동시출현네트워크(co-occurrence network)분석 결과 확인


즉 앞서 3가지 파일을 동시에 호출한 후, 분석한 결과와 동일한 분석결과를 얻었음을 재확인할 수 있습니다. 물론 지난 포스팅에서 설명한 복합어와 불용어 처리도 같은 방법으로 처리하면 되므로 각자 확인해 보기 바랍니다. 

 

4. 정리

텍스트 마이닝을 실행할 때 많은 경우 엑셀 혹은 CSV 파일 형식으로 제공됩니다. 이번 포스팅에서는 분석용 텍스트 데이터가 엑셀 혹은 CSV 파일 형식일 경우 KH Coder3로 호출하는 방법과 Target Column 지정하는 방법에 관하여 정리하였습니다. 다음 포스팅에서는 이를 활용하여 한글 뉴스 키워드 분석을 실행해 보겠습니다. 

 

빅카인즈│ 한글 뉴스 키워드 네트워크 분석 ① │ KHCoder3

빅 카인즈에서 한글 뉴스 덱스트를 수집한 후, KHCoder3을 활용한 한글 뉴스 키워드 네트워크 분석을 실행해보겠습니다. 빅 카인즈가 처음인 분들은 이전 포스팅을 참고해 주기 바랍니다. [카드뉴

e-datanews.tistory.com

다음 포스팅에서는 빅카인즈에서 한글 뉴스 키워드를 추출하고, 수집된 뉴스 키워드를 엑셀로 내려받은 후, KH Coder3로 호출하고 텍스트 마이닝을 진행해 보겠습니다.