본문 바로가기

이슈

유튜브댓글 텍스트마이닝 │김정은 사과 │국내반응분석

유튜브댓글 텍스트마이닝 │김정은 사과 │국내반응분석  

한국국민 살해사건에 대한 김정은의 사과가 매우 이례적이라는 주요 외신들의 보도가 많았습니다특히 이번 사건에 대한 김정은의 사과발언 후, 앞으로 남북관계는 어떻게 변화할지 국제사회도 주목하고 있습니다. 국제사회에 대한 반응은 추후에 다루기로 하고, 이번 포스팅에서는 김정은사과를 보도한 국내 뉴스(KBSYTN연합뉴스유튜브 댓글 반응을 크롤링한 후, 텍스트마이닝 분석결과를 공유해보고자 합니다. 

1. 실습영상 

김정은사과 뉴스에 대한 유튜브댓글 텍스트마이닝 분석실습 영상

2. 분석결과 

본격적인 데이터 정제작업에 앞서 수집된 유튜브 댓글들의 단어들을 이용한 워드클라우드를 구현하였고, 이를 통해 김정은사과에 대한 개략적인 국내반응을 살펴보는 한편, 전처리할 단어들을 미리 체크해보았습니다. 

전처리 실행 전 유튜브댓글 워드클라우드, 김정은사과

김정은사과에 대한 유튜브 댓글들은 상당수가 비속어를 포함한 매우 부정적인 그리고 격양된 분위기로 읽히고 있습니다. 해당 비속어들 대부분은 불용어로 처리하였습니다만, 관련 뉴스에 대한 유튜브 내 약간의 분위기 전달을 위해 일부 비속어들은 남겨두었고, 다음 그림들을 참조하면 되겠습니다. 

전처리 실행 후, 유튜브댓글 워드클라우드, 김정은사과 
5회이상 빈출단어 데이터시각화

상위 30대 빈출단어들만 뽑아낸 후, 김정은사과에 대한 유튜브 댓글들의 의미망 분석을 시도해보았고, 분석결과 상당수 단어들이 특정한 군집을 이루고 있음을 알 수 있습니다. 

김정은사과, 유튜브댓글 상위 30대 빈출단어 의미망 분석

상위 30대 빈출단어들의 연결중심성을 구현한 것이 다음 그림이며, 연결중심성이 가장 높은 3 단어는 청와대, 대한민국, 공무원인것으로 분석되었습니다. 

김정은사과, 유튜브댓글 상위 30대 빈출단어 의미망과 연결중심성

마지막으로 Community Detection 결과는 아래와 같습니다. 크게 5개 정도의 군집이 보이지만, 사실상 위와 아래에 각각 포진하고 있는 2개의 의미망이 핵심이지 않나 싶습니다.

김정은사과, 유튜브댓글 상위 30대 빈출단어 의미망과 군집분석결과

김정은의 사과는 외신보도처럼 매우 이례적인 사건이었음은 분명합니다만, 유튜브 댓글에 나타난 국내 여론은 매우 좋지 않았습니다. 마지막으로 네이버와 달리 유튜브는 아직 댓글 실명제를 실시하지 않아서인지 특히 걸러지지 않고 배설되는 비속어와 같은 단어들이 많아 차후 타 분석에서도 참고가 될 것 같습니다. 
감성사전을 이용하여 김정은 사과 에 대한 유튜브 댓글들의 감성분석을 시도해 보았으나, 결과가 만족스럽지 않아 원인을 파악한 후, 추후 다른 포스팅에서 함께 공유해보도록 하겠습니다.