본문 바로가기

텍스트 마이닝 │한글 │R 4.3.1│Window 11 기준

R을 이용한 한글 텍스트 마이닝(R 4.3.1과 윈도 11 기준) 포스팅이 계속 업데이트되고 있습니다. 관심 있는 분들은 KoNLP 설치 오류 해결 후, 다음 포스팅 순서에 따라 실습해 보기 바랍니다. 키워드 네트워크 분석까지 총 5개의 포스팅이 업로드되었고, 앞으로 토픽분석까지 1-2개의 포스팅을 부정기적으로 업데이트할 예정입니다. 

 

1. KoNLP 설치 순서 및 'scala-library-2.11.8.jar' 해결 방법 │R 4.3.1(Window 11 기준)

R에서 한글 텍스트 마이닝을 실행하기 위해서는 KoNLP 패키지를 설치해야 하고, 그전에 JAVA도 설치해야 합니다. 다만, 설치 후, 'scala-library-2.11.8.jar'  오류로 형태소 분석이 실행되지 못하는 경우가 발생하고 있습니다. 다음 포스팅에서는 KoNLP 설치 순서 및 'scala-library-2.11.8.jar'  해결 방법을 정리해 두었으니 관심 있는 분들은 참고하기 바랍니다. 참고로 포스팅 갱신일 기준 R 최신 버전은 4.3.1이며, 해당 버전을 기준으로 설명하였고, Window 11 기준입니다.

 

KoNLP 설치 순서 │2023년 9월 업데이트 │scala-library-2.11.8.jar 오류 해결 방법 │R 4.3.1 (Window 11 기준)

R에서 한글 텍스트 마이닝 분석을 실행하기 위해서는 JAVA와 KoNLP 패키지를 설치해야 합니다. 포스팅을 업데이트하는 현재 날짜는 2023년 9월 19일입니다. 오늘 기준 R 최근 버전은 4.3.1이며, 해당 버

e-datanews.tistory.com

 

2. 엑셀 데이터 호출, 빈도분석과 데이터 시각화 

빅카인즈에서 뉴스 데이터를 호출한 후, 뉴스 제목과 키워드를 이용한 빈도분석 그리고 이에 기초한 간단한 데이터 시각화 방법을 다루고 있습니다. KoNLP를 설치한 이후, 간단한 테스트 겸 실습해 보기 바랍니다. 분석용 데이터와 R 실습 코드 모두 업로드해 두었습니다. 

 

R 한글 텍스트 마이닝 (1) │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도

지난 포스팅에서 한글 텍스트 마이닝 분석을 위한 KoNLP 설치하는 방법까지 설명하였습니다. 이어서 테스트도 할 겸 엑셀의 텍스트 데이터를 호출하고, 빈도 분석까지 간단히 정리해 보겠습니다.

e-datanews.tistory.com

 

3. 품사 분석과 불용어 추가 전처리

명사를 중심으로 품사 분사과 분석에 불필요한 단어들을 추가 정제하는 전처리 방법에 관하여 정리하였습니다. 분석용 파일은 첫 번째 포스팅과 동일하며, R 실행 코드는 포스팅 내 따로 업로드해 두었습니다. 

 

R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리

이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에

e-datanews.tistory.com

 

4. 단어빈도-역문서빈도 분석

단어 빈도-역문서 빈도 분석(Term Frequency - Inverse Document Frequency, 이하 TF-IDF)에 관한 R 실행코드를 업로드하였습니다. TF-IDF 관련 개념은 이전 포스팅(단어 빈도-역문서 빈도 분석(TF-IDF) 개념과 계산 방법│ChatGPT의 오류, 영혼 없는 사과)을 참고하기 바랍니다. 

 

R 한글 텍스트 마이닝 (3) : TF - IDF

R을 이용한 한글 텍스트 마이닝 세 번째 포스팅은 TF-IDF입니다. TF-IDF 개념은 이전 포스팅에서도 많이 언급했습니다. 주요 개념은 다음 포스팅 등을 참고하기 바랍니다. 단어 빈도-역문서 빈도 분

e-datanews.tistory.com

 

5. 키워드 네트워크 분석

tidygraph와 ggraph 패키지를 이용한 키워드 네트워크 분석을 다음 포스팅에서 정리하였고, R 실행 코드도 업로드하였으니 내려받은 후, 실습해 보기 바랍니다. 

 

R 한글 텍스트 마이닝 분석 (4) : tidygraph와 ggraph │키워드 네트워크 분석

R을 이용한 한글 텍스트 마이닝 분석 다섯 번째 포스팅 주제는 tidygraph와 ggraph를 이용한 키워드 네트워크 분석입니다. 이전에 활용한 네이버의 생성형 AI 서비스 큐 보도자료를 계속 인용하겠습

e-datanews.tistory.com

 

6. 단어 문서 행렬 │ cast_tdm 함수 │ 텍스트 네트워크 분석

cast_tdm 함수를 이용한 단어 문서 행렬(Term-Document Matrix, TDM)을 구성하는 방법과 tdm을 이용한 분석 방법 중 qgraph 패키지의 텍스트 네트워크 분석을 적용한 결과를 함께 제시하였습니다. 

 

R 한글 텍스트 마이닝 (5) : 단어 문서 행렬 │cast_tdm 함수 │텍스트 네트워크 분석

R을 이용한 한글 텍스트 마이닝 다섯 번째 포스팅은 TDM, cast_tdm 함수를 이용한 단어 문서 행렬의 구성 방법에 관한 R 실습 코드와 설명입니다. 마지막에 단어 문서 행렬 구성 후, qgraph 패키지를 이

e-datanews.tistory.com