본문 바로가기

교육

단어 빈도-역문서 빈도 분석(TF-IDF) 개념과 계산 방법│ChatGPT의 오류, 영혼 없는 사과

단어빈도-역문서빈도(Term Frequency-Inverse Document Frequency: 이하 TF-IDF) 분석은 전처리와 토큰화 이후 분석할 텍스트 데이터를 탐색하는 가장 기초적인 분석 단계입니다. 이번 포스팅에서는 TF-IDF의 개념과 계산 방법을 ChatGPT를 이용하여 정리합니다. 특히 ChatGPT를 이용한 코딩 공부 시, 유의사항도 함께 확인하기 바랍니다. 

 

ChatGPT 사용 후기│티스토리 글쓰기 정보 수집

2023년 첫 번째 블로그는 1주일 간 사용해 본 ChatGPT 후기입니다. 작년 12월 1일 ChatGPT이 첫 공개된 후, 다양한 활용 사례가 공유되고 있는데요. 이번 포스팅에서는 ChatGPT을 활용한 티스토리 같은 블

e-datanews.tistory.com

 

R ChatGPT 사용법 │API Key 발급

ChatGPT를 R에서 사용하기 위해서는 먼저 API Key를 발급받아야 합니다. 이번 포스팅에서는 ChatGPT API Key 발급부터 R에서 ChatGPT 이용 방법을 정리합니다. 실습영상 하단에 실행코드도 함께 업로드해

e-datanews.tistory.com

 

1. TF와 TF-IDF 개념과 계산 방법

다음과 같은 단어로 구성된 문서들의 문서집합이 있다고 하겠습니다. 

문서 1 : 나는 인하대학교 학부생이다. 
문서 2 : 나는 인하대학교 대학원생이다. 

해당 문서 집합에서 "학부생" 이라는 단어는 문서 1에서 1회 등장하며, 학부생이라는 단어의 TF는 1입니다. IDF는  log(전체 문서 수 / "학부생"이 나타난 문서 수)이므로 log(2/1) = 0.301이 되고, 결국 "학부생"이라는 단어의 TF-IDF는 0.301 임을 알 수 있습니다.  같은 방법으로 "인하대학교"의 TF-IDF 값을 계산하면, 0이 되고, 결국 TF-IDF 기준에 따르면, 학부생과 인하대학교 중 흔하게 등장하는 단어는 인하대학교이고, 중요하지 않은 단어가 됩니다. 

 

R 한글 텍스트 마이닝 (3) : TF - IDF

R을 이용한 한글 텍스트 마이닝 세 번째 포스팅은 TF-IDF입니다. TF-IDF 개념은 이전 포스팅에서도 많이 언급했습니다. 주요 개념은 다음 포스팅 등을 참고하기 바랍니다. 단어 빈도-역문서 빈도 분

e-datanews.tistory.com

 

2. ChatGPT의 영혼 없는 사고와 재빠른 태세전환 

ChatGPT를 활용한 다양한 사례들이 유튜브, 블로그 등에 쏟아지고 있고, ChatGPT가 github를 얼마나 열심히 학습했는지 코딩쪽에서 탁월한 실력을 발휘하는 것 같습니다. 다만, 한글에 대한 이해가 아직 부족한 탓인지 오류 발생가능성도 여전하니 유의할 필요가 있습니다. 아래는 위에서 계산 TF-IDF에 대한 ChatGPT가 생성한 텍스트들입니다. 영혼 없는 기계와의 대화, 그 한계를 느끼는 순간입니다. 

TF-IDF 오류와 ChatGPT의 사과
TF-IDF 오류와 ChatGPT의 영혼없는 사과
ChatGPT의 재빠른 태세 전환
ChatGPT의 재빠른 태세 전환

 

3. ChatGPT을 활용한 코딩 공부 유의점

유튜브, 블로그 등 ChatGPT를 활용사례들이 넘쳐나고 있습니다. 물론 개인적으로도 ChatGPT 활용 만족도가 매우 높습니다. 다만, ChatGPT의 한글 사용이 아직 불안한 측면이 있으니, 절대적 신뢰는 금물이라는 점이 이번 포스팅의 결론입니다. 

 

PDF 문서 자동 번역 및 요약 간단 방법│ChatPDF │Bing 검색

이번 포스팅은 ChatPDF와 Bing을 이용하여 간단히 그것도 무료로 PDF 문서 자동 번역 및 요약하는 방법을 비교 정리하겠습니다. 국내외 문서를 많이 읽는 분들에게는 괜찮은 팁이니 참고하기 바랍니

e-datanews.tistory.com