본문 바로가기

텍스트 마이닝 │한글 │R 4.3.1│Window 11 기준

R을 이용한 한글 텍스트 마이닝(R 4.3.1과 윈도 11 기준) 포스팅이 계속 업데이트되고 있습니다. 관심 있는 분들은 KoNLP 설치 오류 해결 후, 다음 포스팅 순서에 따라 실습해 보기 바랍니다. 

 

1. KoNLP 설치 순서 및 'scala-library-2.11.8.jar' 해결 방법 │R 4.3.1(Window 11 기준)

R에서 한글 텍스트 마이닝을 실행하기 위해서는 KoNLP 패키지를 설치해야 하고, 그전에 JAVA도 설치해야 합니다. 다만, 설치 후, 'scala-library-2.11.8.jar'  오류로 형태소 분석이 실행되지 못하는 경우가 발생하고 있습니다. 다음 포스팅에서는 KoNLP 설치 순서 및 'scala-library-2.11.8.jar'  해결 방법을 정리해 두었으니 관심 있는 분들은 참고하기 바랍니다. 참고로 포스팅 갱신일 기준 R 최신 버전은 4.3.1이며, 해당 버전을 기준으로 설명하였고, Window 11 기준입니다.

 

KoNLP 설치 순서 │2023년 9월 업데이트 │scala-library-2.11.8.jar 오류 해결 방법 │R 4.3.1 (Window 11 기준)

R에서 한글 텍스트 마이닝 분석을 실행하기 위해서는 JAVA와 KoNLP 패키지를 설치해야 합니다. 포스팅을 업데이트하는 현재 날짜는 2023년 9월 19일입니다. 오늘 기준 R 최근 버전은 4.3.1이며, 해당 버

e-datanews.tistory.com

 

2. 엑셀 데이터 호출, 빈도분석과 데이터 시각화 

빅카인즈에서 뉴스 데이터를 호출한 후, 뉴스 제목과 키워드를 이용한 빈도분석 그리고 이에 기초한 간단한 데이터 시각화 방법을 다루고 있습니다. KoNLP를 설치한 이후, 간단한 테스트 겸 실습해 보기 바랍니다. 분석용 데이터와 R 실습 코드 모두 업로드해 두었습니다. 

 

R 한글 텍스트 마이닝 (1) │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도

지난 포스팅에서 한글 텍스트 마이닝 분석을 위한 KoNLP 설치하는 방법까지 설명하였습니다. 이어서 테스트도 할 겸 엑셀의 텍스트 데이터를 호출하고, 빈도 분석까지 간단히 정리해 보겠습니다.

e-datanews.tistory.com

 

3. 품사 분석과 불용어 추가 전처리

명사를 중심으로 품사 분사과 분석에 불필요한 단어들을 추가 정제하는 전처리 방법에 관하여 정리하였습니다. 분석용 파일은 첫 번째 포스팅과 동일하며, R 실행 코드는 포스팅 내 따로 업로드해 두었습니다. 

 

R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리

이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에

e-datanews.tistory.com

 

4. 단어빈도-역문서빈도 분석

단어 빈도-역문서 빈도 분석(Term Frequency - Inverse Document Frequency, 이하 TF-IDF)에 관한 R 실행코드를 업로드하였습니다. TF-IDF 관련 개념은 이전 포스팅(단어 빈도-역문서 빈도 분석(TF-IDF) 개념과 계산 방법│ChatGPT의 오류, 영혼 없는 사과)을 참고하기 바랍니다. 

 

R 한글 텍스트 마이닝 (3) : TF - IDF

R을 이용한 한글 텍스트 마이닝 세 번째 포스팅은 TF-IDF입니다. TF-IDF 개념은 이전 포스팅에서도 많이 언급했습니다. 주요 개념은 다음 포스팅 등을 참고하기 바랍니다. 단어 빈도-역문서 빈도 분

e-datanews.tistory.com

 

5. 키워드 네트워크 분석

tidygraph와 ggraph 패키지를 이용한 키워드 네트워크 분석을 다음 포스팅에서 정리하였고, R 실행 코드도 업로드하였으니 내려받은 후, 실습해 보기 바랍니다. 

 

R 한글 텍스트 마이닝 분석 (4) : tidygraph와 ggraph │키워드 네트워크 분석

R을 이용한 한글 텍스트 마이닝 분석 다섯 번째 포스팅 주제는 tidygraph와 ggraph를 이용한 키워드 네트워크 분석입니다. 이전에 활용한 네이버의 생성형 AI 서비스 큐 보도자료를 계속 인용하겠습

e-datanews.tistory.com

 

6. 단어 문서 행렬 │ cast_tdm 함수 │ 텍스트 네트워크 분석

cast_tdm 함수를 이용한 단어 문서 행렬(Term-Document Matrix, TDM)을 구성하는 방법과 tdm을 이용한 분석 방법 중 qgraph 패키지의 텍스트 네트워크 분석을 적용한 결과를 함께 제시하였습니다. 

 

R 한글 텍스트 마이닝 (5) : 단어 문서 행렬 │cast_tdm 함수 │텍스트 네트워크 분석

R을 이용한 한글 텍스트 마이닝 다섯 번째 포스팅은 TDM, cast_tdm 함수를 이용한 단어 문서 행렬의 구성 방법에 관한 R 실습 코드와 설명입니다. 마지막에 단어 문서 행렬 구성 후, qgraph 패키지를 이

e-datanews.tistory.com

 

7. 댓글 분석 │어린이 자외선 차단제 선크림 │품사분석과 빈도분석

어린이 자외선 차단제(혹은 선크림)에 대한 댓글을 리스틀리로 수집한 후, 명사 추출과 추가 전처리를 통해 빈도분석 결과를 시각화하여 제시하는 방법을 정리하여 공유하고 있습니다. 

 

댓글 분석 │어린이 자외선 차단제 선크림 사례│R 한글 텍스트 마이닝

댓글 사례 분석 방법에 관하여 정리하여 공유합니다. 분석 도구는 R을 이용하며, 분석 대상은 국내 어린이 자외선 차단제(혹은 선크림) 중 화장품 전문 리뷰 어플인 글로우픽에서 임의로 하나를

e-datanews.tistory.com

 

8. 댓글 분석  │LDA 토픽 모델링 분석 │R 한글 텍스트 마이닝

R을 이용한 한글 텍스트 마이닝 분석 방법 중 LDA 기반의 토픽 모델링 분석 코드를 공유합니다. 분석용 텍스트 데이터는 이전 포스팅에서 수집했던 어린이 자외선 차단제 선크림의 댓글을 계속 이어서 사용합니다. 

 

댓글 분석 │LDA 토픽 모델링 │R 한글 텍스트 마이닝

지난 포스팅에서는 어린이 자외선 차단제 댓글들을 이용하여 품사분석, 전처리 그리고 빈도분석까지 실행해 보았습니다. 이번 포스팅에서는 이어서 잠재 디리클레 할당(Latent Dirichlet Allocation,

e-datanews.tistory.com

 

9. N-gram 댓글 분석 │R 한글 텍스트 마이닝 │어린이 자외선 차단제 선크림

요청이 있어 N-gram 댓글 분석에 관한 포스팅을 추가하였습니다. 수집된 텍스트 데이터가 많지 않아 다양한 N-gram 분석은 실행하지 못하였고, Bigram을 이용한 댓글 분석 R 코드를 정리하여 공유하였으니  참고하시기 바랍니다. 

 

N-Gram 댓글 분석 │R 한글 텍스트 마이닝 │어린이 자외선 차단제 선크림

N-Gram은 말 그대로 N개의 연속적인 단어들의 나열을 뜻합니다. 코퍼스에서 N개의 단어로 나누고 이를 하나의 토큰으로 간주합니다. 여기서 N이 한 개 일 때는 유니그램(unigram), 두 개일 때는 바이

e-datanews.tistory.com