본문 바로가기

교육

구글 뉴스 실시간 헤드라인 웹스크랩핑 │google news in rvest

이전 포스팅에서는 News API로 접근하여 특정 키워드에 대한 국제 뉴스를 수집해 보았습니다. 이번 포스팅에서는 실시간 구글 뉴스의 헤드라인을 rvest 패키지를 이용하여 웹스크랩핑한 후, 워드 클라우드로 구현하는 실습을 진행하겠습니다. rvest R 스크립트는 다음 github를 이용하였습니다. 

 

Scraping Google News with 'rvest'

Scraping Google News with rvest (2020’s update) Updated on 2020-12-05. This is an enhanced and substantially different version of the original article published in R-Bloggers in 2018. This is an example of how to scrape Google News website with the rvest

allanvc.github.io

 

구글 뉴스, 헤드라인 수집 

이번 포스팅 날짜 현재 구글 뉴스의 메인화면입니다. 링크는 https://news.google.com/topstories?hl=en-US&gl=US&ceid=US:en 입니다만, 로그인 한 후, 환경 설정에서 언어를 영어(미국)로 변경해주어야 합니다. 

구글 뉴스 헤드라인
구글 뉴스 헤드라인 메인화면 

 

구글 뉴스 웹스크랩핑 결과

다음 이미지는 위 구글 뉴스 메인화면의 헤드라인을 수집한 결과입니다. 1) 전체 헤드라인 중 10개만 추출한 결과, 2) 해당 언론사, 3) 게재 시간 등을 확인할 수 있습니다. 해당 R 스크립트는 포스팅 하단에도 업로드하였습니다. 참고 바랍니다. 

구글 뉴스 웹스크랩핑 결과
구글 뉴스 헤드라인 웹스크랩핑 결과 

 

구글 헤드라인 뉴스, 워드클라우드

전체 헤드라인 단어들 중 2회 이상 출현한 단어들을 이용한 워드 클라우드 분석 결과 이미지입니다. 여전히 코로나와 연관된 단어들이 주요 국제 뉴스들의 헤드라인을 장식하고 있음을 확인할 수 있습니다. 

구글 뉴스 헤드라인 워드클라우드 분석 결과
구글 뉴스 헤드라인 워드클라우드 

이번 포스팅에서 살펴본 구글 헤드라인 뉴스 웹스크랩핑은 트위터, 구글 트렌드 등과 함께 이용하는 경우 실시간 국제 뉴스 분석에 도움이 되지 않을까 싶습니다. 개인적으로 필요한 일이 있어 포스팅으로 정리하였습니다만, 필요한 분들도 계실 듯하여 같이 공유합니다. 

google news in R.R
0.00MB