일본어 텍스트마이닝 논문을 검색하다 보면, 종종 분석도구로 등장하는 것이 오늘 소개할 khcoder3입니다. khcoder3는 일본의 Koichi Higuchi가 개발한 텍스트마이닝 분석도구입니다. 일본어 텍스트를 분석하기 위해 개발된 툴이지만, 영어 등의 타 언어 분석도 가능합니다. 예전부터 사용법이 궁금하던 차에 포스팅도 할 겸 텍스트마이닝을 처음 접하는 분들을 위해 흥미유발 혹은 동기부여 차원에서 활용방법을 간단히 소개해 보고자 합니다.
2024년 2월 말, KHCoder가 서비스 유료화로 정책을 변경하였습니다. 관련 포스팅은 아래 링크를 참고해주시기 바랍니다.
KHCoder의 구체적인 다양한 사용법은 아래 포스팅들을 참고해주시기 바랍니다.
1. khcoder3 설치
다음 그림은 khcoder3 설치부터 활용까지 정리한 것입니다. 포스팅 하단에서도 소개하고 있으니 참고 바랍니다.
2. 영어 불용어 사전설치
이번 포스팅에서는 예시언어로 영어 텍스트 분석을 실행해보겠습니다. 우선 영어 텍스트 분석을 위해서는 프로그램 다운로드 및 설치 후 아래와 같은 절차에 따라 불용어 사전을 세팅합니다.
[Project] > [Settings] > Lemmatization with “Stanford POS Tagger” 선택 > ‘config’ 클릭 > Stop words 등록
3. 분석절차와 주요 방법
텍스트분석방법은 매우 간단합니다. 분석파일을 불러온 후, pre-processing 처리를 실행합니다. 토큰화과정이 끝나면, tools 하위 메뉴의 각 분석방법을 클릭하면, 실행결과가 자동으로 도출됩니다. 카드뉴스와 유튜브 동영상에서는 tools 하위 메뉴 중 words의 유사한 출현 패턴을 시각화하는 다음과 같은 분석방법이 가능합니다.
- Correspondence analysis
- Multi-Dimensional Scaling
- Hierarchical Cluster Analysis
- Co-Occurrence Network
- Self-Organizing Map
일단 코딩하지 않고 그것도 무료로 텍스트마이닝을 경험해볼 수 있다는 점에서 유용한 도구라 생각됩니다. 개인적으로는 R을 활용한 텍스트마이닝 강의에 앞서 종종 활용해 볼 생각입니다.
'교육' 카테고리의 다른 글
한국무역협회 빅데이터 │서비스 이용방법 (0) | 2020.09.24 |
---|---|
캔바(Canva) 동영상│유튜브 인트로 실습│무료 소셜 미디어 마케팅 동영상 제작 (0) | 2020.09.10 |
KOTRA 무역투자 빅데이터 서비스 │인스턴트라면 수출 (0) | 2020.08.20 |
미리캔버스│캔바│사용법│무료 카드뉴스 제작│무료 썸네일 제작 (0) | 2020.08.13 |
웹스크랩퍼 활용사례│텍스트데이터 자동수집│ 카자흐스탄 flip.kz 사례 (0) | 2020.08.11 |