R을 이용한 한글 텍스트 마이닝(R 4.3.1과 윈도 11 기준) 포스팅이 계속 업데이트되고 있습니다. 관심 있는 분들은 KoNLP 설치 오류 해결 후, 다음 포스팅 순서에 따라 실습해 보기 바랍니다.
1. KoNLP 설치 순서 및 'scala-library-2.11.8.jar' 해결 방법 │R 4.3.1(Window 11 기준)
R에서 한글 텍스트 마이닝을 실행하기 위해서는 KoNLP 패키지를 설치해야 하고, 그전에 JAVA도 설치해야 합니다. 다만, 설치 후, 'scala-library-2.11.8.jar' 오류로 형태소 분석이 실행되지 못하는 경우가 발생하고 있습니다. 다음 포스팅에서는 KoNLP 설치 순서 및 'scala-library-2.11.8.jar' 해결 방법을 정리해 두었으니 관심 있는 분들은 참고하기 바랍니다. 참고로 포스팅 갱신일 기준 R 최신 버전은 4.3.1이며, 해당 버전을 기준으로 설명하였고, Window 11 기준입니다.
2. 엑셀 데이터 호출, 빈도분석과 데이터 시각화
빅카인즈에서 뉴스 데이터를 호출한 후, 뉴스 제목과 키워드를 이용한 빈도분석 그리고 이에 기초한 간단한 데이터 시각화 방법을 다루고 있습니다. KoNLP를 설치한 이후, 간단한 테스트 겸 실습해 보기 바랍니다. 분석용 데이터와 R 실습 코드 모두 업로드해 두었습니다.
3. 품사 분석과 불용어 추가 전처리
명사를 중심으로 품사 분사과 분석에 불필요한 단어들을 추가 정제하는 전처리 방법에 관하여 정리하였습니다. 분석용 파일은 첫 번째 포스팅과 동일하며, R 실행 코드는 포스팅 내 따로 업로드해 두었습니다.
4. 단어빈도-역문서빈도 분석
단어 빈도-역문서 빈도 분석(Term Frequency - Inverse Document Frequency, 이하 TF-IDF)에 관한 R 실행코드를 업로드하였습니다. TF-IDF 관련 개념은 이전 포스팅(단어 빈도-역문서 빈도 분석(TF-IDF) 개념과 계산 방법│ChatGPT의 오류, 영혼 없는 사과)을 참고하기 바랍니다.
5. 키워드 네트워크 분석
tidygraph와 ggraph 패키지를 이용한 키워드 네트워크 분석을 다음 포스팅에서 정리하였고, R 실행 코드도 업로드하였으니 내려받은 후, 실습해 보기 바랍니다.
6. 단어 문서 행렬 │ cast_tdm 함수 │ 텍스트 네트워크 분석
cast_tdm 함수를 이용한 단어 문서 행렬(Term-Document Matrix, TDM)을 구성하는 방법과 tdm을 이용한 분석 방법 중 qgraph 패키지의 텍스트 네트워크 분석을 적용한 결과를 함께 제시하였습니다.
7. 댓글 분석 │어린이 자외선 차단제 선크림 │품사분석과 빈도분석
어린이 자외선 차단제(혹은 선크림)에 대한 댓글을 리스틀리로 수집한 후, 명사 추출과 추가 전처리를 통해 빈도분석 결과를 시각화하여 제시하는 방법을 정리하여 공유하고 있습니다.
8. 댓글 분석 │LDA 토픽 모델링 분석 │R 한글 텍스트 마이닝
R을 이용한 한글 텍스트 마이닝 분석 방법 중 LDA 기반의 토픽 모델링 분석 코드를 공유합니다. 분석용 텍스트 데이터는 이전 포스팅에서 수집했던 어린이 자외선 차단제 선크림의 댓글을 계속 이어서 사용합니다.
9. N-gram 댓글 분석 │R 한글 텍스트 마이닝 │어린이 자외선 차단제 선크림
요청이 있어 N-gram 댓글 분석에 관한 포스팅을 추가하였습니다. 수집된 텍스트 데이터가 많지 않아 다양한 N-gram 분석은 실행하지 못하였고, Bigram을 이용한 댓글 분석 R 코드를 정리하여 공유하였으니 참고하시기 바랍니다.