본문 바로가기

교육

R 셀레늄 │유튜브 R 크롤링 │동적 웹페이지

셀레늄(Selenium)을 활용한 동적 웹페이지 R 크롤링 방법을 정리하고, 유튜브 제목을 R 셀레늄을 활용하여 크롤링하겠습니다. 다만, 이번 포스팅에서는 사전 준비 사항까지만 정리하겠습니다. 구글 API를 활용하여 R 크롤링 테스트는 다음 포스팅을 참고하기 바랍니다. 

 

 

[R 크롤링]유튜브 댓글 수집│DIY 미니어처하우스│해외 소비자 반응 분석

[R 크롤링]유튜브 댓글 수집│DIY 미니어처하우스│해외 소비자 반응 분석 이번 포스팅에서도 DIY미니어처하우스 상품분석을 이어간다. 다만, 해외 소비자 반응을 조사하는 대안적 방법으로

e-datanews.tistory.com

 

 

유튜브댓글 텍스트마이닝 │김정은 사과 │국내반응분석

유튜브댓글 텍스트마이닝 │김정은 사과 │국내반응분석  한국국민 살해사건에 대한 김정은의 사과가 매우 이례적이라는 주요 외신들의 보도가 많았습니다. 특히 이번 사건에 대한 김정은의

e-datanews.tistory.com

 

 

1. C드라이브에 selenium 폴더 생성 및 각 프로그램 다운로드

다음의 selenium, Geckodriver, chromeDriver을 각각 다운로드한 후, selenium 폴더에 모아둡니다. 특히 selenium을 제외한 Geckodriver, chromeDriver은 압축을 풀어주어야 합니다. 

 

1.1 Geckodriver 다운로드 

Geckodriver 웹사이트에서 아래 그림처럼 본인의 OS 버전에 맞는 Geckodriver 다운로드합니다. 

Geckodriver 다운로드
Geckodriver 다운로드

 

1.2 selenium 다운로드

웹사이트에서 그림처럼 selenium을 다운로드합니다. 

selenium 다운로드
셀레늄 다운로드

 

1.3 chrome 버전 확인 

다음 그림을 따라서 본인의 chrome 버전을 확인합니다. 

chrome 버전 확인 방법
chrome 버전 확인

 

1. 4 chromeDriver 다운로드 

크롬 버전이 확인되었다면, 다음 웹사이트로 이동하여 chromeDriver를 다운로드합니다. 

chromeDriver 다운로드
chromeDriver 다운로드

 

2. 명령 프롬프트 실행

윈도 검색창에 cmd를 입력하여 명령 프롬프트를 오픈한 후, 다음 절차에 따라 진행합니다. 
첫째, cmd 창에 cd C:\selenium를 입력합니다. 둘째, 다음 명령어를 cmd 창에 붙여줍니다. 
java -Dwebdriver.gecko.driver="geckodriver.exe" -jar selenium-server-standalone-3.14 1.59.jar -port 4445

 

3. 유튜브 제목 R 크롤링

유튜브를 크롤링하기 위한 모든 사전 준비가 끝났습니다. 테스트 차원에서 유튜브 검색창에서 "kbeauty review"라고 검색한 후, 관련 동영상을 찾고 해당 유튜브 영상들의 제목 10개만 크롤링해보겠습니다. 다음 영상은 실행 영상입니다. 


R 셀레늄 유튜브 크롤링 테스트 영상 

이번 포스팅에서는 R 셀레늄을 활용한 유튜브 크롤링 테스팅 결과를 공유했습니다. 유튜브 댓글 혹은 제목을 크롤링하는 경우 구글 API를 활용하여 특정 영상에 크롤링이 방법이 더 효율적일 수 있습니다. 셀레늄을 테스팅하는 차원에서 진행한 것이므로 참고하기 바랍니다.