이전 포스팅에서는 News API로 접근하여 특정 키워드에 대한 국제 뉴스를 수집해 보았습니다. 이번 포스팅에서는 실시간 구글 뉴스의 헤드라인을 rvest 패키지를 이용하여 웹스크랩핑한 후, 워드 클라우드로 구현하는 실습을 진행하겠습니다. rvest R 스크립트는 다음 github를 이용하였습니다.
구글 뉴스, 헤드라인 수집
이번 포스팅 날짜 현재 구글 뉴스의 메인화면입니다. 링크는 https://news.google.com/topstories?hl=en-US&gl=US&ceid=US:en 입니다만, 로그인 한 후, 환경 설정에서 언어를 영어(미국)로 변경해주어야 합니다.
구글 뉴스 웹스크랩핑 결과
다음 이미지는 위 구글 뉴스 메인화면의 헤드라인을 수집한 결과입니다. 1) 전체 헤드라인 중 10개만 추출한 결과, 2) 해당 언론사, 3) 게재 시간 등을 확인할 수 있습니다. 해당 R 스크립트는 포스팅 하단에도 업로드하였습니다. 참고 바랍니다.
구글 헤드라인 뉴스, 워드클라우드
전체 헤드라인 단어들 중 2회 이상 출현한 단어들을 이용한 워드 클라우드 분석 결과 이미지입니다. 여전히 코로나와 연관된 단어들이 주요 국제 뉴스들의 헤드라인을 장식하고 있음을 확인할 수 있습니다.
이번 포스팅에서 살펴본 구글 헤드라인 뉴스 웹스크랩핑은 트위터, 구글 트렌드 등과 함께 이용하는 경우 실시간 국제 뉴스 분석에 도움이 되지 않을까 싶습니다. 개인적으로 필요한 일이 있어 포스팅으로 정리하였습니다만, 필요한 분들도 계실 듯하여 같이 공유합니다.
'교육' 카테고리의 다른 글
러시아 현지 고객 전문가 추천 한국 화장품 │리스틀리 │listly.io (0) | 2021.08.08 |
---|---|
R 구글 트렌드 │gtrendsR │korean beauty │ japan beauty (0) | 2021.08.07 |
국제 뉴스 데이터 수집과 분석│News API in R (0) | 2021.07.31 |
카카오 쇼핑 쿨링 팩 구매후기 워드클라우드 (0) | 2021.07.29 |
텍스트마이닝 분석 절차 │비정형 데이터 분석 방법 │중국 경제 해외 연구 (0) | 2021.07.01 |