본문 바로가기

교육

[카드뉴스] khcoder3 사용법│텍스트마이닝 무료 분석툴

 

일본어 텍스트마이닝 논문을 검색하다보면, 종종 분석도구로 등장하는 것이 오늘 소개할 khcoder3입니다. khcoder3는 일본의 Koichi Higuchi가 개발한 텍스트마이닝 분석도구입니다. 일본어 텍스트를 분석하기 위해 개발된 툴이지만, 영어 등의 타 언어 분석도 가능합니다. 예전부터 사용법이 궁금하던 차에 포스팅도 할겸 텍스트마이닝을 처음 접하는 분들을 위해 흥미유발 혹은 동기부여 차원에서 활용방법을 간단히 소개해 보고자 합니다. 

1. khcoder3 설치

다음 그림은 khcoder3 설치부터 활용까지 정리한 것입니다. 포스팅 하단에서도 소개하고 있으니 참고바랍니다. 

0123456
텍스트마이닝 무료 분석도구인 khcoder3 사용법



2. 영어 불용어 사전설치


이번 포스팅에서는 예시언어로 영어 텍스트 분석을 실행해보겠습니다. 우선 영어 텍스트 분석을 위해서는 프로그램 다운로드 및 설치 후 아래와 같은 절차에 따라 불용어 사전을 셋팅합니다. 

[Project] > [Settings] > Lemmatization with “Stanford POS Tagger”  선택 >  ‘config’ 클릭 > Stop words 등록 

3. 분석절차와 주요 방법

텍스트분석방법은 매우 간단합니다. 분석파일을 불러온 후, pre-processing 처리를 실행합니다. 토큰화과정이 끝나면, tools 하위 메뉴의 각 분석방법을 클릭하면, 실행결과가 자동으로 도출됩니다. 카드뉴스와 유튜브 동영상에서는 tools 하위 메뉴 중 words의 유사한 출현 패턴을 시각화하는  다음과 같은 분석방법이 가능합니다.

  • Correspondence analysis
  • Multi-Dimensional Scaling
  • Hierarchical Cluster Analysis
  • Co-Occurrence Network
  • Self-Organizing Map

 

khcoder3를 활용한 텍스트마이닝 샘플 동영상 

일단 코딩하지 않고 그것도 무료로 텍스트마이닝을 경험해볼 수 있다는 점에서 유용한 도구라 생각됩니다. 개인적으로는 R을 활용한 텍스트마이닝 강의에 앞서 종종 활용해볼 생각입니다. 

KHcoder를 활용한 일본어, 한글 텍스트마이닝 방법을 다음 포스팅에서 업데이트하고 있습니다. 관심있는 분들은 아래 포스팅을 참고해주기 바랍니다.

 

한국 화장품 일본 소비자 리뷰 No Coding 무료 텍스트마이닝│코딩하지 않고 동시 출현 네트워크

한국 화장품에 대한 일본 소비자들의 리뷰, 구매후기를 코딩하지 않고(No Coding) 수집, 분석하는 텍스트 마이닝을 실행하겠습니다. 리스틀리(listly)와 KHcoder를 이용하면 가능한데요. 여러 분석 기

e-datanews.tistory.com

 

키워드 네트워크 분석 방법 │한글 텍스트마이닝│KHcoder 활용

논문 작성 방법 중의 하나로 많이 사용되는 한글 키워드 네트워크 분석 방법에 관하여 정리합니다. 예제 키워드는 인플루언서이며, 해당 키워드를 이용하여 국내 연구를 정리해보겠습니다. 분

e-datanews.tistory.com

한글 외 영어, 일본어 등 다국어 텍스트 마이닝 분석이 무료로 가능한 KHCoder3를 내려 받은 후, 설치부터 다양한 분석까지 소개한 포스팅이 업데이트되었습니다. 관심있는 분들은 아래 KHCoder3 설치 포스팅부터 차례로 읽어보기 바랍니다. 

 

한글 텍스트 마이닝│KH Coder3 내려받고 설치하기 │Window 기준

KHcoder3을 활용한 한글 텍스트 마이닝 방법을 총정리하는 첫 번째 포스팅입니다. 이번 포스팅에서는 KHcoder3을 내려받고 설치하는 방법에 대하여 정리하겠습니다. 우선 KHcoder3는 텍스트 마이닝 전

e-datanews.tistory.com