본문 바로가기

교육

다음 뉴스 댓글 자동 수집 │R 크롤링 │ 도쿄 올림픽 보이콧

다음 뉴스 댓글을 자동 수집하는 R 크롤링 방법을 간단히 소개하겠습니다. 뉴스 데이터는 도쿄 올림픽을 보이콧 여부에 대한 국내 뉴스 보도입니다. 뉴스 댓글은 특정 사건에 대한 여론을 가늠해 볼 수 있다는 점에서 매우 유용한 정보입니다.
R 크롤링 코드는 포스팅 맨 하단에 업로드해 두었습니다. 

 

1. 다음 뉴스 댓글 자동 수집을 위한 R 패키지 설치 

다음 뉴스 댓글 자동 수집을 위한 R 패키지 DNH4를 설치합니다. 해당 패키지에 대한 자세한 내용은 개발자인 박찬엽 님의 블로그를 참고하기 바랍니다. 

다음 뉴스 댓글 자동 수집 R 패키지 설치
R 패키지 DNH4 설치 

 

2. 다음 뉴스 댓글 R 크롤링과 한글 텍스트 마이닝 

댓글 수집할 뉴스 기사를 선택했다면, 아래 R 코드를 Console 창에 붙여 실행하면 됩니다. 우선 댓글에 관한 정보는 comment라는 객체에 저장되며, 댓글 텍스트 데이터는 content에 들어 있습니다. content에 들어가 있는 댓글에서 명사와 2글자 이상인 단어들만 추출한 후, 간단하게 워드 클라우드를 작성하겠습니다. 

다음뉴스 댓글 분석 R코드
다음 뉴스 댓글 명사 추출 및 워드 클라우드 R 코드 

 

3. 텍스트 데이터 시각화 : 워드 클라우드 

"도쿄 올림픽 보이콧" 에 관한 국내 뉴스 댓글을 자동 수집한 후, 2글자 이상의 명사만 추출하여 워드 클라우드로 구현한 결과는 다음과 같습니다. 

도쿄 올림픽보이콧 워드클라우드
도쿄 올림픽 보이콧 국내 뉴스 댓글 분석 결과 

 

4. 정리 

다음 뉴스 수집 패키지 DNH4를 이용하여 도쿄 올림픽 보이콧에 관한 다음 뉴스 댓글을 자동 수집한 후, 간단하게 워드 클라우드를 작성해 보았습니다. 이번 포스팅에서 사용한 R 코드는 업로드된 파일에 모두 담겨 있습니다. 내려받은 후, 여러분 각자 실습해 보기 바랍니다.  다음 포스팅은 네이버 뉴스 댓글을 자동 수집하는 R 크롤링에 대하여 이야기해 보겠습니다. 

daum_reply_test.R
0.00MB