R을 이용한 한글 텍스트 마이닝 세 번째 포스팅은 TF-IDF입니다. TF-IDF 개념은 이전 포스팅에서도 많이 언급했습니다. 주요 개념은 다음 포스팅 등을 참고하기 바랍니다.
또한 분석 예제 파일도 이전 포스팅에서 다루었던 파일을 계속 사용하겠습니다. 앞서 정리했던 주제들은 윈도 11 기준 KoNLP 설치 방법부터 품사분석과 불용어 처리까지 다루었습니다. 이 포스팅부터 확인한 분들은 이전 포스팅을 순서대로 읽어보기를 권합니다.
분석에 필요한 라이브러리와 분석 파일을 로딩하고, 간단한 전처리 및 토근화 과정까지는 이전 포스팅과 동일합니다. 실습용 R 실행 코드는 포스팅 하단에 업로드해 두겠습니다. 내려받은 후, 실습해 보면 됩니다.
1. TF - IDF 계산과 결과 엑셀 저장
다음 R 코드를 실행하면, 단어들의 tf, idf 와 tf-idf 분석 결과를 확인 및 저장할 수 있습니다. 다만, bind_tf_idf를 통해 나타난 tf는 텍스트의 전체 단어 수에서 해당 단어의 수가 차지하는 "비율"을 의미합니다. 단어 빈도를 전체 단어 빈도로 나눈 비율이며 결국 텍스트에 사용된 전체 단어 수가 많을수록 작아지게 됩니다.
# 06. TF-IDF
naverq_keywords_tfidf <- naverq_keywords_tokens %>%
count(id, word) %>%
bind_tf_idf(word, id, n) %>%
arrange(desc(tf_idf))
# 07. 저장
output01 <- "naverq_keywords_tfidf.xlsx"
write_xlsx(naverq_keywords_tfidf, output01)
2. 불용어 추가 전처리
분석 결과에서 "네이버", "최수연", "관계자" 단어는 불용어 처리한 후, TF - IDF 값이 큰 상위 30개 단어들을 추출하여 막대그래프로 시각화하면 다음과 같습니다.
3. 단어 추가 정리 후, 워드 클라우드 구현
TF-IDF 값이 상위 30개에 속하는 단어들을 검토해보면, "억", "개"와 같은 한 글자 단어들도 등장하고 있습니다. 두 글자 이상의 단어들만 구현되도록 필터링한 후, 다시 워드 클라우드를 구현하면 다음과 같습니다.
4. R 파일 다운로드
이번 포스팅에서 설명한 R 파일은 아래와 같이 메모장 파일로 올려두겠습니다. 필요한 분들은 내려 받은 후, 실습해보기 바랍니다.
다음 포스팅은 tidygraph와 ggraph 패지키를 이용한 키워드 네트워크 분석입니다. 관련 내용은 위의 링크 포스팅을 참고하기 바랍니다
'교육' 카테고리의 다른 글
AI 자동 무료 텍스트 마이닝 일본어 사이트 사용법 (1)│ユーザーローカル (0) | 2023.10.16 |
---|---|
R 한글 텍스트 마이닝 분석 (4) : tidygraph와 ggraph │키워드 네트워크 분석 (0) | 2023.10.10 |
R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리 (0) | 2023.10.01 |
R 한글 텍스트 마이닝 (1) │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도분석 시각화 (0) | 2023.09.24 |
해외 뉴스 텍스트 네트워크 분석 │영어 데이터 정제 방법 (0) | 2023.06.24 |