본문 바로가기

한글 텍스트 마이닝

R 한글 텍스트 마이닝 (5) : 단어 문서 행렬 │cast_tdm 함수 │텍스트 네트워크 분석 R을 이용한 한글 텍스트 마이닝 다섯 번째 포스팅은 TDM, cast_tdm 함수를 이용한 단어 문서 행렬의 구성 방법에 관한 R 실습 코드와 설명입니다. 마지막에 단어 문서 행렬 구성 후, qgraph 패키지를 이용한 동시출현네트워크분석(co-occurrence network anlysis)까지 설명하고 마무리하겠습니다. 실습할 데이터는 계속 이어서 네이버 큐 보도자료입니다. 해당 데이터는 두번째 포스팅에 올려두었으니, 참고 바랍니다. 또한 아래 포스팅을 참고하여 KoNLP 패키지 먼저 설치해야 R을 이용한 한글 텍스트 마이닝 분석이 가능합니다. R 한글 텍스트 마이닝 분석 (4) : tidygraph와 ggraph │키워드 네트워크 분석 R을 이용한 한글 텍스트 마이닝 분석 다섯 번째 포스팅 주제는 .. 더보기
R 한글 텍스트 마이닝 (3) : TF - IDF R을 이용한 한글 텍스트 마이닝 세 번째 포스팅은 TF-IDF입니다. TF-IDF 개념은 이전 포스팅에서도 많이 언급했습니다. 주요 개념은 다음 포스팅 등을 참고하기 바랍니다. 단어 빈도-역문서 빈도 분석(TF-IDF) 개념과 계산 방법│ChatGPT의 오류, 영혼 없는 사과 단어빈도-역문서빈도(Term Frequency-Inverse Document Frequency: 이하 TF-IDF) 분석은 전처리와 토큰화 이후 분석할 텍스트 데이터를 탐색하는 가장 기초적인 분석 단계입니다. 이번 포스팅에서는 TF-IDF의 개 e-datanews.tistory.com 또한 분석 예제 파일도 이전 포스팅에서 다루었던 파일을 계속 사용하겠습니다. 앞서 정리했던 주제들은 윈도 11 기준 KoNLP 설치 방법부터 품사분석.. 더보기
R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리 이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에 대한 보도자료를 계속 이용하겠습니다. R 코드는 포스팅 하단에 업로드해 두었습니다. R 한글 텍스트 마이닝 │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도분석 지난 포스팅에서 한글 텍스트 마이닝 분석을 위한 KoNLP 설치하는 방법까지 설명하였습니다. 이어서 테스트도 할 겸 엑셀의 텍스트 데이터를 호출하고, 빈도 분석까지 간단히 정리해 보겠습니다. e-datanews.tistory.com 01. 로딩 분석에 필요한 라이브러리를 로딩합니다. 더보기 library(tidyverse) lib.. 더보기
R 한글 텍스트 마이닝 (1) │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도분석 시각화 지난 포스팅에서 한글 텍스트 마이닝 분석을 위한 KoNLP 설치하는 방법까지 설명하였습니다. 이어서 테스트도 할 겸 엑셀의 텍스트 데이터를 호출하고, 빈도 분석까지 간단히 정리해 보겠습니다. 예제 데이터는 9월 20일 출시된 네이버의 생성형 AI 서비스인 큐에 대한 국내 보도자료이며, 이 중 제목과 키워드를 이용합니다.  KoNLP 설치 순서 │scala-library-2.11.8.jar 오류 해결 방법 │R 4.3.1 (Window 11 기준)R에서 한글 텍스트 마이닝 분석을 실행하기 위해서는 JAVA와 KoNLP 패키지를 설치해야 합니다. 포스팅을 업데이트하는 현재 날짜는 2023년 9월 19일입니다. 오늘 기준 R 최근 버전은 4.3.1이며, 해당 버e-datanews.tistory.com 1. 데.. 더보기
계층적 군집분석 │ 와드(Ward) │ 유클리디안 거리 군집분석은 비슷한 속성을 가진 분석대상을 몇 개의 집단으로 묶고 각 집단의 특징을 파악하여 전체 데이터를 탐색하는 방법입니다. 몇 개의 집단으로 묶기 위해서는 묶이는 집단 간 유사도가 필요합니다. KHCoder3에서 제공하고 있는 유사도 계산 방법은 지난 포스팅에서도 소개했습니다만, 이번 포스팅에서는 유클리디안 거리에 대하여 정리하고 계층적 군집분석을 테스트해보겠습니다. 1. 계층적 군집분석의 거리 계산 방법 개별 분석 대상 간의 거리를 기준으로 수형도 즉 나무 모양의 계층구조를 상향식으로 만들어 가는 방법입니다. 거리를 계산하는 방법에 따라 단일결합, 완전결합, 평균결합, 중심경합 그리고 와드(Ward)기준이 있습니다. 단일결합은 최소거리를, 완전결합은 최대거리를, 평균결합은 평균거리를, 중심결합은 집.. 더보기
KH Coder3 대응분석│삼성 현대차 SK그룹의 경영철학 비교 │한글 텍스트 마이닝 KH Coder3을 이용한 한글 텍스트 마이닝 분석 방법 중 대응분석 사용방법에 대하여 정리하겠습니다. 대응분석이란 2개 이상의 명목 척도로 측정된 범주형 변수들 간의 연관성을 분석하고 이를 플롯팅하는 방법으로서 대표적인 탐색적 자료 분석 방법입니다. 1. 분석자료 준비 KH Coder3의 대응분석 사용법을 정리하기 위해 준비한 분석자료는 삼성그룹, 현대차 그룹, SK그룹의 경영철학입니다. 해당 경영철학은 모두 각 그룹사 웹사이트에서 복사해왔고, 엑셀로 정리하여 다음과 같이 업로드해두었습니다. 2. 분석자료 호출 및 전처리 Project > New 하고 각 그룹사 경영철학이 정리된 엑셀 파일을 호출합니다. 다음 PRe-Processing > Run pre-processing를 통해 데이터 전처리를 실행합.. 더보기
빅카인즈│한글 뉴스 키워드 네트워크 분석 │ KHCoder3 빅 카인즈에서 한글 뉴스 덱스트를 수집한 후, KHCoder3을 활용한 한글 뉴스 키워드 네트워크 분석을 실행해 보겠습니다. 빅 카인즈가 처음인 분들은 이전 포스팅을 참고해 주기 바랍니다.  빅카인즈 AI │AI 신문 뉴스 기사 작성 방법과 예시한국언론진흥재단의 뉴스빅데이터 서비스인 빅카인즈가 신문 뉴스 기사 작성을 지원하는 실험버전인 생성형 AI 서비스, 빅카인즈 AI를 공개하고 있습니다. 이번 포스팅에서는 빅카인즈에서 소e-datanews.tistory.com [카드뉴스] 빅카인즈(BIGKinds) 활용방법이번 포스팅에서는 국내 뉴스빅데이터 분석서비스를 제공하는 빅카인즈(BIGKinds) 활용방법을 소개하고자 합니다. 예제 검색키워드는 중앙아시아 5개국가 중 우리나라 화장품 최대 수입국가 중e-dat.. 더보기
엑셀 CSV 파일 호출 │ KH Coder3 │ 한글 텍스트 마이닝 KH Coder3에서 엑셀 혹은 csv(comma-separated values) 파일을 호출한 후, 텍스트 마이닝을 실행하겠습니다. 우선 지난 포스팅에서 사용했던 텍스트 파일 3개를 하나의 엑셀 파일로 만들어 둡니다. 1. 분석 엑셀 파일 준비 3개의 개별 텍스트 파일을 그림처럼 하나의 엑셀 파일로 만들었습니다. 여기서 중요한 점은 첫 행에는 반드시 변수 이름(text, id)이 들어가야 한다는 점입니다. 2. KH Coder3 엑셀 파일 호출 방법 KH Coder3 메뉴에서 Project > New를 열어 Browse를 눌러 호출할 엑셀 파일을 지정합니다. 그다음 텍스트 마이닝할 열을 지정해야 하는데요. 그림처럼 Target Column를 눌러 텍스트 마이닝을 실행할 변수명을 지정합니다. 이번 포스팅.. 더보기
KH Coder3 복합어와 불용어 처리 방법 │한글 텍스트 마이닝 KH Coder3로 텍스트 마이닝을 시도한 후, 추가적인 전처리가 필요할 수 있습니다. KH Coder3에서는 복합어와 불용어 처리 가능이 내장되어 있습니다. 해당 기능을 이용하여 추가적인 전처리가 가능합니다. 지난 포스팅에서는 다루었던 예제를 이용하여 각 기능 사용방법을 설명하겠습니다. R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리 이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에 e-datanews.tistory.com 1. 동시출현네트워크 분석 결과 확인 지난 포스팅에서 설명했던 3가지 텍스트 파일을 다시 이용하겠습니다. 다음 그.. 더보기
KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석 이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다. 1. 두 개 이상의 문서 준비 KHCoder3 폴더내 test라는 새로운 폴더를 만들고, 아래 test01, test02, test03 파일을 test 폴더에 각각 저장합니다. text01, 인하대학교 국제통상학과에 재학중입니다. text02, 인하대학교 공학대학원에 재학중입니다. text03, 인하대학교는 인천에 있습니다. 2. 텍스트 데이터 호출하기 KH Coder3를 실행시킨 후, 상단 메뉴에서 project > import > Multiple texts in a fold를 클릭합니다. 새 창이 뜨면 browse 버튼을.. 더보기
다음 뉴스 댓글 자동 수집 │R 크롤링 │ 도쿄 올림픽 보이콧 다음 뉴스 댓글을 자동 수집하는 R 크롤링 방법을 간단히 소개하겠습니다. 뉴스 데이터는 도쿄 올림픽을 보이콧 여부에 대한 국내 뉴스 보도입니다. 뉴스 댓글은 특정 사건에 대한 여론을 가늠해 볼 수 있다는 점에서 매우 유용한 정보입니다. R 크롤링 코드는 포스팅 맨 하단에 업로드해 두었습니다. 1. 다음 뉴스 댓글 자동 수집을 위한 R 패키지 설치 다음 뉴스 댓글 자동 수집을 위한 R 패키지 DNH4를 설치합니다. 해당 패키지에 대한 자세한 내용은 개발자인 박찬엽 님의 블로그를 참고하기 바랍니다. 2. 다음 뉴스 댓글 R 크롤링과 한글 텍스트 마이닝 댓글 수집할 뉴스 기사를 선택했다면, 아래 R 코드를 Console 창에 붙여 실행하면 됩니다. 우선 댓글에 관한 정보는 comment라는 객체에 저장되며, .. 더보기
KoNLP 설치 순서 │2023년 9월 업데이트 │scala-library-2.11.8.jar 오류 해결 방법 │R 4.3.1 (Window 11 기준) R에서 한글 텍스트 마이닝 분석을 실행하기 위해서는 JAVA와 KoNLP 패키지를 설치해야 합니다. 포스팅을 업데이트하는 현재 날짜는 2023년 9월 19일입니다. 오늘 기준 R 최근 버전은 4.3.1이며, 해당 버전을 기준으로 윈도 11에서 KoNLP 설치 순서와 'scala-library-2.11.8.jar' 오류 해결 방법을 정리하고, 오류 수정 후, 형태소 분석 결과까지 확인해 보겠습니다. 1. JAVA 설치 먼저 JAVA를 설치하겠습니다. 다음 이미지를 클릭하여 다운로드 페이지로 이동합니다. 그리고 Windows-offline(64-bit) 클릭하여 내 컴퓨터로 내려받기를 완료합니다. 2. R 4.3.1 내려받기 KoNLP 설치를 위해 작성일 현재 가장 최근 버전인 R 4.3.1을 내려받습니다... 더보기