본문 바로가기

KHCoder 활용 한글, 영어 , 일본어 등 다국어 텍스트 마이닝 분석 안내

제 강의용 블로그에 올라온 KHCoder 활용순서(한글, 영어, 일본어 등 다국어 텍스트 마이닝)를 아래와 같이 순서대로 정리해서 말씀드리겠습니다. 그날그날 강의 목적에 따라 작성하다 보니 포스팅은 많이 쌓여 있는데, 두서가 없는 것 같아 정리해서 안내할 필요가 있겠다는 생각을 계속하고 있었습니다. 논문 작성 목적으로 이 글을 보고 계신다면, 이재원(2020) 연구, 임병호 외(2022) 연구 등도 참고하시기 바랍니다. 2024년 2월 28일 기준 KHCoder가 유료 버전인 Base Edition 을 출시함에 따라 본격적인 서비스 유료화의 길로 들어섰습니다. 관련하여 다음과 같은 포스팅을 공지하였으니 이후 이용하시는 분들은 참고하시기 바랍니다. 

 

KHCoder3 업데이트 공지 │서비스 유료화 │2024년 2월 28일 기준

KHCoder를 한동안 사용하질 않아서 모르고 있었습니다만, 오늘 우연히 확인할 일이 있어서 웹사이트를 방문하고 나서야 최근 서비스 유료화 공지 내용을 확인할 수 있었습니다. 2024년 2월 28일을

e-datanews.tistory.com

 

1. 윈도 기준 설치 방법

여기 강의용 블로그에서 소개하고 있는 KHCoder를 활용한 텍스트 마이닝 분석은 OS가 윈도 기준입니다. Mac 기반의 개인 pc를 사용하는 분들은 KHCoder 홈페이지에서 소개하는 방식에 따라 설치하시기 바랍니다. (Mac 기반 KHCoder 설치 안내 링크 클릭!!!)  제가 사용하고 있는 몇 대의 컴퓨터들이 모두 윈도우 기반이라 Mac 기반의 설치 및 활용은 설명드릴 수 없다는 점, 양해 부탁드립니다. 

 

한글 텍스트 마이닝│KH Coder3 내려받고 설치하기 │Window 기준

KHcoder3을 활용한 한글 텍스트 마이닝 방법을 총정리하는 첫 번째 포스팅입니다. 이번 포스팅에서는 KHcoder3을 내려받고 설치하는 방법에 대하여 정리하겠습니다. 우선 KHcoder3는 텍스트 마이닝 전

e-datanews.tistory.com

 

2. 분석용 텍스트 데이터 KHCoder 호출 방법

2개 이상의 텍스트 파일을 동시에 호출하는 경우는 다음 포스팅을 참고하시기 바랍니다. 

 

KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석

이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다. 1. 두 개 이상의 문

e-datanews.tistory.com

엑셀 파일이나 csv 파일을 호출하는 경우는 다음 포스팅을 참고하시기 바랍니다. 단, 한컴 오피스가 설치되어 있는 경우 csv 파일을 KHCoder로 호출하는 경우 오류가 발생합니다. 따라서 엑셀로  다시 저장하고 엑셀 파일로 호출하는 것이 좋으니 참고하시기 바랍니다. 

 

엑셀 CSV 파일 호출 │ KH Coder3 │ 한글 텍스트 마이닝

KH Coder3에서 엑셀 혹은 csv(comma-separated values) 파일을 호출한 후, 텍스트 마이닝을 실행하겠습니다. 우선 지난 포스팅에서 사용했던 텍스트 파일 3개를 하나의 엑셀 파일로 만들어 둡니다. 1. 분석

e-datanews.tistory.com

 

3. 단어 빈도 분석

텍스트 데이터를 호출하고, 전처리를 실행한 후에는 단어들의 출현 빈도와 품사 분석을 확인할 필요가 있습니다. KHCoder는 별도의 라이브러리 설치 필요 없이 자동으로 토큰화와 품사 분석 결과가 제시됩니다. 본격적인 분석 전에 확인하고, 추가적인 전처리 여부를 판단해 보시기 바랍니다. 

 

KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석

이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다. 1. 두 개 이상의 문

e-datanews.tistory.com

 

4. 복합어와 불용어 추가 전처리 하는 방법

KHCoder는 다 좋은데, 한글 토큰화가 너무 상세하게 나온다는 점입니다. 이 점이 좋은 건지 안 좋은 건지 모르겠습니다만, 분석 결과를 좀 더 명확히 해석하기 위해서는 복합어와 불용어 추가 처리가 필요합니다. 다음 포스팅을 참고해서 반드시 복합어와 불용어 추가 전처리를 하시기 바랍니다. 추가 전처리를 해야만, 분석 결과가 보다 명확해지며, 동시에 설득력을 가질 수 있습니다. 아래 포스팅 외에도 다음 포스팅도 참고하기 바랍니다. ( https://e-datanews.tistory.com/262)

 

KH Coder3 복합어와 불용어 처리 방법 │한글 텍스트 마이닝

KH Coder3로 텍스트 마이닝을 시도한 후, 추가적인 전처리가 필요할 수 있습니다. KH Coder3에서는 복합어와 불용어 처리 가능이 내장되어 있습니다. 해당 기능을 이용하여 추가적인 전처리가 가능합

e-datanews.tistory.com

 

5. 유사도 지수들의 차이와 비교 

KHCoder에서 제공하는 텍스트 마이닝 분석 방법을 살펴보면, 5가지 유사도 지수가 자체 내장되어 있어, 이 중 사용자가 선택하게끔 되어 있습니다. 다음 포스팅은 5 가지 유사도 지수 중 성격이 비슷한 자카드 지수, 다이스, 심슨 지수를 정리한 포스팅입니다. 계산 개념부터 적용 이후 차이까지 소개해 두었으니 참고하기 바랍니다. 

 

유사도 지수 차이 비교 │ Jaccard │Dice│ Simpson 계수 │KH Coder3 동시출현네트워크분석

KH Coder3가 제공하는 유사도 지수 계산 방법은 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수, 코사인(Cosine), 유클리디안 (Euclidean)이 있습니다. 이들 유사도 지수 계측 방법은 KH Coder3가 제공하는 텍

e-datanews.tistory.com

포스팅에서도 설명했습니다만, 자카드(Jaccard) 유사도 지수 계산식은 Jaccard(A, B) = |A ∩ B| / |A ∪ B|, 심슨은 Simpson(A, B) = min(|A|, |B|) / |A ∩ B|, 다이스는 Dice(A, B) = 2 * |A ∩ B| / (|A| + |B|)으로 각각 계산합니다.  그 외 유클리드(Euclidean) 유사도는 두 개체 간 거리를 측정하는 지수로서 두 개체의 값들 간의 차이를 제곱한 뒤, 이를 모두 더한 후 제곱근을 취합니다. 즉 Euclidean(A, B) = sqrt(Σ(ai - bi)^2)입니다. 코사인(Cosine) 유사도는 두 벡터 간의 각도를 측정하는 지수입니다. 계산은 두 벡터 간의 내적을 두 벡터의 크기의 곱으로 나눈 값을 계산합니다. 즉 Cosine(A, B) = A•B / ||A|| ||B||입니다. 유클리드의 경우 벡터의 크기나 방향의 차이를 반영하지 않기 때문에, 벡터의 방향이나 크기가 중요한 경우에는 유클리드 거리를 사용하지 않습니다. 코사인의 경우는 벡터가 얼마나 비슷한 방향을 가지는지를 나타내므로, 벡터의 방향이 중요한 경우에는 코사인 유사도를 사용합니다. 값은 -1에서 1 사이의 값을 가지며, 1에 가까울수록 두 벡터가 비슷합니다.

 

 

계층적 군집분석 │ 와드(Ward) │ 유클리디안 거리

군집분석은 비슷한 속성을 가진 분석대상을 몇 개의 집단으로 묶고 각 집단의 특징을 파악하여 전체 데이터를 탐색하는 방법입니다. 몇 개의 집단으로 묶기 위해서는 묶이는 집단 간 유사도가

e-datanews.tistory.com

계층적 군집분석(Hierarchical clustering)은 데이터를 클러스터로 구분하는 방법 중 하나입니다. 앞서 언급한 데이터의 유사도에 기초하여 덴드로그램(Dendrogram)이라는 나무 모양의 그래프를 생성하며, 이를 기초로 데이터의 구조를 파악하고, 클러스터 간의 관계를 시각화하는 데 유용합니다.KHCoder에서 분석 방법으로 제공하지는 않고 있습니다만, 비계층적 군집분석(Non-hierarchical clustering)도 있습니다. 이는 사전에 정해진 갯수만큼 클러스터를 생성합니다. 즉 미리 지정된 클러스터의 수에 따라 결과가 달라질 수 있다는 점에서 최적의 클러스터 수를 찾는 것이 중요합니다. 사전에 정해진 클러스터 수만큼 데이터 간의 유사도에 따라 각 데이터를 지정된 클러스터에 할당합니다. 이러한 클러스터링 알고리즘으로는 K-means 알고리즘이 대표적입니다만, 관련 설명은 생략하겠습니다.

 

6. KH Coder의 텍스트 마이닝 분석 방법

KHCoder에서 제공하는 텍스트 마이닝 분석 방법은 토픽 분석을 제외하면 총 5가지입니다. 이 중 대응분석, 군집분석 그리고 동시출현네트워크 분석에 대하여 정리한 포스팅은 다음과 같습니다. 각각 확인해 보시기 바랍니다. 그 외 다차원척도법( multidimensional scaling), 자기조직화지도(self-organizing map) 생략합니다. 토픽 분석은 따로 포스팅할 예정이며, 현재는 작성 및 공개된 포스팅이 없으니 이 점도 참고 바랍니다. 현재 무료 배포 중인 KHCoder 버전에서는 토픽 분석도 클릭 몇 번으로 충분히 수행 가능합니다. 관심 있는 분들은 참고하시기 바랍니다. 

 

KH Coder3 대응분석│삼성 현대차 SK그룹의 경영철학 비교 │한글 텍스트 마이닝

KH Coder3을 이용한 한글 텍스트 마이닝 분석 방법 중 대응분석 사용방법에 대하여 정리하겠습니다. 대응분석이란 2개 이상의 명목 척도로 측정된 범주형 변수들 간의 연관성을 분석하고 이를 플

e-datanews.tistory.com

 

계층적 군집분석 │ 와드(Ward) │ 유클리디안 거리

군집분석은 비슷한 속성을 가진 분석대상을 몇 개의 집단으로 묶고 각 집단의 특징을 파악하여 전체 데이터를 탐색하는 방법입니다. 몇 개의 집단으로 묶기 위해서는 묶이는 집단 간 유사도가

e-datanews.tistory.com

 

한국 화장품 일본 소비자 리뷰 No Coding 무료 텍스트마이닝│코딩하지 않고 동시 출현 네트워크

한국 화장품에 대한 일본 소비자들의 리뷰, 구매후기를 코딩하지 않고(No Coding) 수집, 분석하는 텍스트 마이닝을 실행하겠습니다. 리스틀리(listly)와 KHcoder를 이용하면 가능한데요. 여러 분석 기

e-datanews.tistory.com

 

키워드 네트워크 분석 방법 │한글 텍스트마이닝│KHcoder 활용

논문 작성 방법 중의 하나로 많이 사용되는 한글 키워드 네트워크 분석 방법에 관하여 정리합니다. 예제 키워드는 인플루언서이며, 해당 키워드를 이용하여 국내 연구를 정리해보겠습니다. 분

e-datanews.tistory.com

 

7. 응용 및 활용

KHCoder를 활용한 텍스트 마이닝 활용편의 궁극적인 목적은 고객 리뷰를 텍스트 마이닝한 후, 마케팅 인사이트를 공유하는 목적이 제일 큽니다. 여러모로 부족합니다만, 저의 몇 가지 아이디어와 활용 사례는 다음 포스팅에 담았으니 확인 후, 보다 다양한 활용 사례가 공유되었으면 합니다. 

 

무료 코딩 없는 웹스크래핑 텍스트 마이닝 데이터 시각화│일본 유기농 립스틱 아마존 재팬 현

무료로 코딩 없이 웹스크래핑 도구인 DataMiner와 KH Coder3을 이용하여, 실제 아마존 재팬에서 판매 중인 일본산 유기농 립스틱 고객 리뷰 분석 사례를 정리해 보겠습니다. 1. 무료 웹스크래핑, DataMin

e-datanews.tistory.com

 

베이지크 국내 비건 스킨케어 일본 사용 후기 텍스트 마이닝 분석 사례│ 아마존 재팬

이전 포스팅에서 일본 현지 추천 국내 비건 스킨케어 브랜드를 소개한 바 있고, 무료로 코딩 없이 웹스크래핑과 텍스트 마이닝 하는 방법을 정리한 바 있습니다. 이번 포스팅에서는 이어서 국내

e-datanews.tistory.com

 

정리

앞서 말씀드린 바와 같이 강의 목적 혹은 생각이 나는 대로 KHCoder 활용 방법에 대한 포스팅을 작성했었고, 이런 저런 내용의 포스팅이 쌓이다 보니 두서가 없는 것 같아 KHCoder 활용을 위한 포스팅 읽는 순서를 공지 사항을 통해 안내하였습니다. 
지금부터 이 포스팅을 확인하고 들어오신 분들은 부족하나마 제가 앞에 기술한 순서대로 포스팅을 읽어보시면, KHCoder를 활용한 텍스트 마이닝 공부에 도움이 되시리라 생각됩니다.
마지막으로 기술의 발전은 궁극적으로 인류가 사용하기 편하도록 발전하는 것이 일반적입니다만, 그렇다고 언제까지 기술의 발전을 쳐다보고만 있을 수는 없습니다. 즉 python이든 R이든 코딩 공부를 가급적 빨리 시작하시기를 권합니다. 강의 시간에도 여러 번 강조했듯이 KHCoder는 코딩을 위한 동기 유발 차원에서 정리하는 것임을 거듭 강조하면서 이번 포스팅을 마무리하겠습니다. 감사합니다.