이번 포스팅은 R의 tm 패키지를 이용해 지난 포스팅에서 Amazon Review Scraper로 수집한 아마존 구매후기를 워드 클라우드로 구현해보겠습니다. 관련 R Script는 포스팅 하단에 업로드해두겠습니다.
준비
우선 Amazon Review Scraper를 이용하여 구매후기 등의 데이터를 수집해야 합니다. 수집이 완료되면 확장자가 csv 파일로 자동 다운로드 되게 됩니다. 해당 파일을 열어보면, 세미콜론(;)으로 구매후기 등의 데이터가 구분되어 있음을 알 수 있습니다. R에서 csv 파일을 바로 불러올 수도 있겠습니다만, 일부 텍스트 데이터가 깨지는 현상이 발생합니다. 이유가 불명확한데, 해당 csv 파일을 txt 파일로 변환한 후, R로 불러오면 텍스트 데이터가 깨지지 않으니, 참고하기 바랍니다. 수집된 데이터는 "ReviewerName", "Stars", "ReviewLink", "Title", "Description", "Review"이며, 일단 이번 분석에서 필요한 부분은 "Review" 이므로 해당 부분을 이용하여 워드 클라우드와 워드 클라우드 2를 각각 만들어 보도록 하겠습니다.
워드클라우드
구매후기를 이용한 워드 클라우드 분석 결과는 다음 그림과 같습니다. 하단의 R Script에서 확인할 수 있는 바와 같이 구매후기 중 5회 이상 등장한 단어들을 이용하여 워드 클라우드를 생성하였습니다.
워드 클라우드의 여러 가지 옵션 값을 조정하면, 좀 더 다양한 형태의 워드 클라우드 구현이 가능합니다. 가령, scale을 이용해 빈도수에 따른 글자의 상대적 크기를 조정할 수도 있고, rot.per을 통해 글자의 각도도 조정 가능합니다. 이 외에도 팔레트를 참조하여 다양한 색들도 가져올 수 있습니다.
워드클라우드2
워드 클라우드에 비해 워드 클라우드 2는 보다 다양한 형태의 워드 클라우드 형태를 구현할 수 있습니다. 참고로 아래 그림은 "pentagon" 형태로 워드 클라우드 2를 구현한 결과입니다. 상세한 실행 R Script는 하단의 첨부파일을 참고 바랍니다.
실습영상
아래 영상은 R Script를 "편집 > 전부 실행하기"를 통해 구현한 결과입니다. 영상과 R Script를 활용하여 직접 실습해 보기 바랍니다.
마지막으로 텍스트 데이터 분석을 통해 보다 정확한 분석 결과를 전달하기 위해서 다른 포스팅에서 누차 강조한 바와 같이 데이터 전처리가 매우 중요합니다. 현재 R Script는 전처리가 전혀 되어 있지 않은 상태이니 각자 수집한 아마존 구매후기에서 어떤 텍스트 데이터를 전 처리할 것인지 생각하면 좋겠습니다.
아마존 리뷰 얼마나 믿을만한가?
다음 포스팅에서는 아마존 가짜 리뷰 혹은 가짜 구매후기를 식별하는 몇 가지 서비스 활용 방법에 대하여 정리하겠습니다.
'정보' 카테고리의 다른 글
아마존 가짜 리뷰 탐지하는 3가지 서비스 │가짜 구매 후기 식별 방법 (0) | 2021.12.13 |
---|---|
2021 블랙 프라이데이 사이버 먼데이 온라인 매출 올해 처음 감소 (0) | 2021.12.11 |
아마존 구매후기 자동 수집 절차 │아마존 스크래핑│How to use Amazon Review Scraper (0) | 2021.12.09 |
일본 소비 시장 조사 무료 서비스 추천 (0) | 2021.12.05 |
아마존 장난감 생일 선물 추천 │3살부터 4살까지│2021년 12월 기준 (0) | 2021.12.04 |