본문 바로가기

KH Coder3

무료 코딩 없는 웹스크래핑 텍스트 마이닝 데이터 시각화│일본 유기농 립스틱 아마존 재팬 현지 고객 리뷰 사례 분석 무료로 코딩 없이 웹스크래핑 도구인 DataMiner와 KH Coder3을 이용하여, 실제 아마존 재팬에서 판매 중인 일본산 유기농 립스틱 고객 리뷰 분석 사례를 정리해 보겠습니다. 1. 무료 웹스크래핑, DataMiner 무료로 웹스크래핑이 가능한 도구들이 많이 있고, 이전 포스팅에서도 몇 가지 무료 웹스크래핑 도구 사용법들을 소개 한 바 있는데요. 이번 포스팅에서는 새로운 무료 웹스크래핑 도구인 DataMiner를 이용합니다. 정확하게는 한 달에 500페이지까지만 무료이며, 그 이상 사용하는 경우에는 과금이 됩니다. 자세한 사항은 과금 정보는 해당 링크를 통해 확인하기 바랍니다. 또한 구체적인 사용방법은 DataMiner에서 제공하는 아래 유튜브 튜토리얼 영상을 참고하기 바랍니다. DataMiner .. 더보기
유사도 지수 차이 비교 │ Jaccard │Dice│ Simpson 계수 │KH Coder3 동시출현네트워크분석 KH Coder3가 제공하는 유사도 지수 계산 방법은 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수, 코사인(Cosine), 유클리디안 (Euclidean)이 있습니다. 이들 유사도 지수 계측 방법은 KH Coder3가 제공하는 텍스트 마이닝 분석 방법 중 다차원 척도 법, 계층적 군집분석, 동시 출현 네트워크 분석에 활용되고 있습니다. 이번 포스팅에서는 이 중 계산 방법이 비슷한 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수에 관해 정리하고, 동시 출현 네트워크 분석에 각각 적용하여 각 유사도 지수의 차이점을 살펴보겠습니다. 1. 자카드(Jaccard) 지수 계산식은 다음과 같습니다. 즉, 「단어 X와 단어 Y가 동시에 출현한 수」 ÷ 「단어 X와 단어.. 더보기
엑셀 CSV 파일 호출 │ KH Coder3 │ 한글 텍스트 마이닝 KH Coder3에서 엑셀 혹은 csv(comma-separated values) 파일을 호출한 후, 텍스트 마이닝을 실행하겠습니다. 우선 지난 포스팅에서 사용했던 텍스트 파일 3개를 하나의 엑셀 파일로 만들어 둡니다. 1. 분석 엑셀 파일 준비 3개의 개별 텍스트 파일을 그림처럼 하나의 엑셀 파일로 만들었습니다. 여기서 중요한 점은 첫 행에는 반드시 변수 이름(text, id)이 들어가야 한다는 점입니다. 2. KH Coder3 엑셀 파일 호출 방법 KH Coder3 메뉴에서 Project > New를 열어 Browse를 눌러 호출할 엑셀 파일을 지정합니다. 그다음 텍스트 마이닝할 열을 지정해야 하는데요. 그림처럼 Target Column를 눌러 텍스트 마이닝을 실행할 변수명을 지정합니다. 이번 포스팅.. 더보기
KH Coder3 복합어와 불용어 처리 방법 │한글 텍스트 마이닝 KH Coder3로 텍스트 마이닝을 시도한 후, 추가적인 전처리가 필요할 수 있습니다. KH Coder3에서는 복합어와 불용어 처리 가능이 내장되어 있습니다. 해당 기능을 이용하여 추가적인 전처리가 가능합니다. 지난 포스팅에서는 다루었던 예제를 이용하여 각 기능 사용방법을 설명하겠습니다. R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리 이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에 e-datanews.tistory.com 1. 동시출현네트워크 분석 결과 확인 지난 포스팅에서 설명했던 3가지 텍스트 파일을 다시 이용하겠습니다. 다음 그.. 더보기
KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석 이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다. 1. 두 개 이상의 문서 준비 KHCoder3 폴더내 test라는 새로운 폴더를 만들고, 아래 test01, test02, test03 파일을 test 폴더에 각각 저장합니다. text01, 인하대학교 국제통상학과에 재학중입니다. text02, 인하대학교 공학대학원에 재학중입니다. text03, 인하대학교는 인천에 있습니다. 2. 텍스트 데이터 호출하기 KH Coder3를 실행시킨 후, 상단 메뉴에서 project > import > Multiple texts in a fold를 클릭합니다. 새 창이 뜨면 browse 버튼을.. 더보기
한글 텍스트 마이닝│KH Coder3 내려받고 설치하기 │Window 기준 KHcoder3을 활용한 한글 텍스트 마이닝 방법을 총정리하는 첫 번째 포스팅입니다. 이번 포스팅에서는 KHcoder3을 내려받고 설치하는 방법에 대하여 정리하겠습니다. 우선 KHcoder3는 텍스트 마이닝 전용 프로그램으로서 일본 리츠메이칸(立命館) 대학의 히구치 코이치 교수가 개발 및 무료 배포하고 있습니다. KHcoder3의 가장 큰 특징은 한국어, 일본어, 영어 등 총 12개 언어들에 대한 텍스트 마이닝이 간단한 메뉴 클릭 방식으로 가능하다는 점입니다. 그럼 다음 순서에 따라 KHcoder3을 설치해보겠습니다. 참고로 Window 기준으로 설명합니다. 텍스트 마이닝 │한글 │R 4.3.1│Window 11 기준 R을 이용한 한글 텍스트 마이닝(R 4.3.1과 윈도 11 기준) 포스팅이 계속 업데이.. 더보기