셀레늄(Selenium)을 활용한 동적 웹페이지 R 크롤링 방법을 정리하고, 유튜브 제목을 R 셀레늄을 활용하여 크롤링하겠습니다. 다만, 이번 포스팅에서는 사전 준비 사항까지만 정리하겠습니다. 구글 API를 활용하여 R 크롤링 테스트는 다음 포스팅을 참고하기 바랍니다.
1. C드라이브에 selenium 폴더 생성 및 각 프로그램 다운로드
다음의 selenium, Geckodriver, chromeDriver을 각각 다운로드한 후, selenium 폴더에 모아둡니다. 특히 selenium을 제외한 Geckodriver, chromeDriver은 압축을 풀어주어야 합니다.
1.1 Geckodriver 다운로드
Geckodriver 웹사이트에서 아래 그림처럼 본인의 OS 버전에 맞는 Geckodriver 다운로드합니다.
1.2 selenium 다운로드
웹사이트에서 그림처럼 selenium을 다운로드합니다.
1.3 chrome 버전 확인
다음 그림을 따라서 본인의 chrome 버전을 확인합니다.
1. 4 chromeDriver 다운로드
크롬 버전이 확인되었다면, 다음 웹사이트로 이동하여 chromeDriver를 다운로드합니다.
2. 명령 프롬프트 실행
윈도 검색창에 cmd를 입력하여 명령 프롬프트를 오픈한 후, 다음 절차에 따라 진행합니다.
첫째, cmd 창에 cd C:\selenium를 입력합니다. 둘째, 다음 명령어를 cmd 창에 붙여줍니다.
java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.14 1.59.jar -port 4445
3. 유튜브 제목 R 크롤링
유튜브를 크롤링하기 위한 모든 사전 준비가 끝났습니다. 테스트 차원에서 유튜브 검색창에서 "kbeauty review"라고 검색한 후, 관련 동영상을 찾고 해당 유튜브 영상들의 제목 10개만 크롤링해보겠습니다. 다음 영상은 실행 영상입니다.
이번 포스팅에서는 R 셀레늄을 활용한 유튜브 크롤링 테스팅 결과를 공유했습니다. 유튜브 댓글 혹은 제목을 크롤링하는 경우 구글 API를 활용하여 특정 영상에 크롤링이 방법이 더 효율적일 수 있습니다. 셀레늄을 테스팅하는 차원에서 진행한 것이므로 참고하기 바랍니다.
'교육' 카테고리의 다른 글
카페 창업 뜨는 지역 │ 통계 지리 정보 서비스 이용 방법 │통계청 (0) | 2022.04.08 |
---|---|
자영업 창업 분석 │상권 정보 분석 │소상공인시장진흥공단 (0) | 2022.03.31 |
러시아 현지 고객 전문가 추천 한국 화장품 │리스틀리 │listly.io (0) | 2021.08.08 |
R 구글 트렌드 │gtrendsR │korean beauty │ japan beauty (0) | 2021.08.07 |
구글 뉴스 실시간 헤드라인 웹스크랩핑 │google news in rvest (0) | 2021.08.04 |