단어빈도-역문서빈도(Term Frequency-Inverse Document Frequency: 이하 TF-IDF) 분석은 전처리와 토큰화 이후 분석할 텍스트 데이터를 탐색하는 가장 기초적인 분석 단계입니다. 이번 포스팅에서는 TF-IDF의 개념과 계산 방법을 ChatGPT를 이용하여 정리합니다. 특히 ChatGPT를 이용한 코딩 공부 시, 유의사항도 함께 확인하기 바랍니다.
1. TF와 TF-IDF 개념과 계산 방법
다음과 같은 단어로 구성된 문서들의 문서집합이 있다고 하겠습니다.
문서 1 : 나는 인하대학교 학부생이다.
문서 2 : 나는 인하대학교 대학원생이다.
해당 문서 집합에서 "학부생" 이라는 단어는 문서 1에서 1회 등장하며, 학부생이라는 단어의 TF는 1입니다. IDF는 log(전체 문서 수 / "학부생"이 나타난 문서 수)이므로 log(2/1) = 0.301이 되고, 결국 "학부생"이라는 단어의 TF-IDF는 0.301 임을 알 수 있습니다. 같은 방법으로 "인하대학교"의 TF-IDF 값을 계산하면, 0이 되고, 결국 TF-IDF 기준에 따르면, 학부생과 인하대학교 중 흔하게 등장하는 단어는 인하대학교이고, 중요하지 않은 단어가 됩니다.
2. ChatGPT의 영혼 없는 사고와 재빠른 태세전환
ChatGPT를 활용한 다양한 사례들이 유튜브, 블로그 등에 쏟아지고 있고, ChatGPT가 github를 얼마나 열심히 학습했는지 코딩쪽에서 탁월한 실력을 발휘하는 것 같습니다. 다만, 한글에 대한 이해가 아직 부족한 탓인지 오류 발생가능성도 여전하니 유의할 필요가 있습니다. 아래는 위에서 계산 TF-IDF에 대한 ChatGPT가 생성한 텍스트들입니다. 영혼 없는 기계와의 대화, 그 한계를 느끼는 순간입니다.
3. ChatGPT을 활용한 코딩 공부 유의점
유튜브, 블로그 등 ChatGPT를 활용사례들이 넘쳐나고 있습니다. 물론 개인적으로도 ChatGPT 활용 만족도가 매우 높습니다. 다만, ChatGPT의 한글 사용이 아직 불안한 측면이 있으니, 절대적 신뢰는 금물이라는 점이 이번 포스팅의 결론입니다.
'교육' 카테고리의 다른 글
GPT-4 꿀팁 │ Account-Based Marketing(ABM) 개념과 단계 별 실행 사례 (0) | 2023.05.03 |
---|---|
가장 인기 있는 테드 (TED) 역대 강연 │유튜브 조회수 기준 (0) | 2023.04.19 |
ChatGPT API Key │ChatGPT R에서 사용하기 (0) | 2023.03.20 |
워드클라우드 간단 예제 │파이썬 │Python (0) | 2023.03.20 |
이미지 데이터 호출과 수정 │이미지 처리 │파이썬 python (0) | 2023.03.18 |