다음 뉴스 댓글을 자동 수집하는 R 크롤링 방법을 간단히 소개하겠습니다. 뉴스 데이터는 도쿄 올림픽을 보이콧 여부에 대한 국내 뉴스 보도입니다. 뉴스 댓글은 특정 사건에 대한 여론을 가늠해 볼 수 있다는 점에서 매우 유용한 정보입니다.
R 크롤링 코드는 포스팅 맨 하단에 업로드해 두었습니다.
1. 다음 뉴스 댓글 자동 수집을 위한 R 패키지 설치
다음 뉴스 댓글 자동 수집을 위한 R 패키지 DNH4를 설치합니다. 해당 패키지에 대한 자세한 내용은 개발자인 박찬엽 님의 블로그를 참고하기 바랍니다.
2. 다음 뉴스 댓글 R 크롤링과 한글 텍스트 마이닝
댓글 수집할 뉴스 기사를 선택했다면, 아래 R 코드를 Console 창에 붙여 실행하면 됩니다. 우선 댓글에 관한 정보는 comment라는 객체에 저장되며, 댓글 텍스트 데이터는 content에 들어 있습니다. content에 들어가 있는 댓글에서 명사와 2글자 이상인 단어들만 추출한 후, 간단하게 워드 클라우드를 작성하겠습니다.
3. 텍스트 데이터 시각화 : 워드 클라우드
"도쿄 올림픽 보이콧" 에 관한 국내 뉴스 댓글을 자동 수집한 후, 2글자 이상의 명사만 추출하여 워드 클라우드로 구현한 결과는 다음과 같습니다.
4. 정리
다음 뉴스 수집 패키지 DNH4를 이용하여 도쿄 올림픽 보이콧에 관한 다음 뉴스 댓글을 자동 수집한 후, 간단하게 워드 클라우드를 작성해 보았습니다. 이번 포스팅에서 사용한 R 코드는 업로드된 파일에 모두 담겨 있습니다. 내려받은 후, 여러분 각자 실습해 보기 바랍니다. 다음 포스팅은 네이버 뉴스 댓글을 자동 수집하는 R 크롤링에 대하여 이야기해 보겠습니다.
'교육' 카테고리의 다른 글
네이버 뉴스댓글수집 분석 │비트코인 10년 만에 최대 낙폭 │R 크롤링 (0) | 2021.06.02 |
---|---|
rtweet 사용법 │BTS meal │R 크롤링 (0) | 2021.06.01 |
동시 출현 네트워크 분석 │귀멸의 칼날 │의미망 분석 │네이버 영화평 (0) | 2021.05.29 |
귀멸의 칼날 : 무한열차편 │감성분석 │네이버 영화 │R 텍스트 마이닝 (0) | 2021.05.28 |
아마존 구매후기 분석 │사회 연결망 분석 │중심성 │2살 아기 장난감 선물 (0) | 2021.05.27 |