본문 바로가기

교육

[카드뉴스] khcoder3 사용법│텍스트마이닝 무료 분석툴

 

일본어 텍스트마이닝 논문을 검색하다 보면, 종종 분석도구로 등장하는 것이 오늘 소개할 khcoder3입니다. khcoder3는 일본의 Koichi Higuchi가 개발한 텍스트마이닝 분석도구입니다. 일본어 텍스트를 분석하기 위해 개발된 툴이지만, 영어 등의 타 언어 분석도 가능합니다. 예전부터 사용법이 궁금하던 차에 포스팅도 할 겸 텍스트마이닝을 처음 접하는 분들을 위해 흥미유발 혹은 동기부여 차원에서 활용방법을 간단히 소개해 보고자 합니다. 

2024년 2월 말, KHCoder가 서비스 유료화로 정책을 변경하였습니다. 관련 포스팅은 아래 링크를 참고해주시기 바랍니다. 

 

KHCoder 업데이트 공지 │서비스 유료화 │2024년 2월 28일 기준

KHCoder를 한동안 사용하질 않아서 모르고 있었습니다만, 오늘 우연히 확인할 일이 있어서 웹사이트를 방문하고 나서야 최근 서비스 유료화 공지 내용을 확인할 수 있었습니다. 2024년 2월 28일을

e-datanews.tistory.com

KHCoder의 구체적인 다양한 사용법은 아래 포스팅들을 참고해주시기 바랍니다. 

 

KHCoder 활용 한글, 영어 , 일본어 등 다국어 텍스트 마이닝 분석 안내

제 강의용 블로그에 올라온 KHCoder 활용순서(한글, 영어, 일본어 등 다국어 텍스트 마이닝)를 아래와 같이 순서대로 정리해서 말씀드리겠습니다. 그날그날 강의 목적에 따라 작성하다 보니 포스

e-datanews.tistory.com

 

1. khcoder3 설치

다음 그림은 khcoder3 설치부터 활용까지 정리한 것입니다. 포스팅 하단에서도 소개하고 있으니 참고 바랍니다. 

0123456
텍스트마이닝 무료 분석도구인 khcoder3 사용법


2. 영어 불용어 사전설치


이번 포스팅에서는 예시언어로 영어 텍스트 분석을 실행해보겠습니다. 우선 영어 텍스트 분석을 위해서는 프로그램 다운로드 및 설치 후 아래와 같은 절차에 따라 불용어 사전을 세팅합니다. 

[Project] > [Settings] > Lemmatization with “Stanford POS Tagger”  선택 >  ‘config’ 클릭 > Stop words 등록 

3. 분석절차와 주요 방법

텍스트분석방법은 매우 간단합니다. 분석파일을 불러온 후, pre-processing 처리를 실행합니다. 토큰화과정이 끝나면, tools 하위 메뉴의 각 분석방법을 클릭하면, 실행결과가 자동으로 도출됩니다. 카드뉴스와 유튜브 동영상에서는 tools 하위 메뉴 중 words의 유사한 출현 패턴을 시각화하는  다음과 같은 분석방법이 가능합니다.

  • Correspondence analysis
  • Multi-Dimensional Scaling
  • Hierarchical Cluster Analysis
  • Co-Occurrence Network
  • Self-Organizing Map
khcoder3를 활용한 텍스트마이닝 샘플 동영상 

일단 코딩하지 않고 그것도 무료로 텍스트마이닝을 경험해볼 수 있다는 점에서 유용한 도구라 생각됩니다. 개인적으로는 R을 활용한 텍스트마이닝 강의에 앞서 종종 활용해 볼 생각입니다.