텍스트 마이닝 분석 방법 중 단어 간의 상관관계와 n-gram 분석을 간단히 실습해보겠습니다. 특히 아마존 리뷰 전에 read reviews that mention라는 부분이 있습니다. 해당 부분이 이번 포스팅에서 다룰 n-gram 분석이라고 보면 되겠습니다. 예제는 아마존의 어린이, 아기 자외선 차단제 추천 상품 중 고객 평점, 리뷰건수 등이 가장 높고 많은 Babyganics SPF 50 Baby Sunscreen Lotion UVA UVB Protection을 이용하겠습니다.
상관관계분석과 n-gram 분석
상관관계 분석은 두 변수 간의 선형 관계 여부를 검토하는 통계적 방법의 하나이며, 상관계수로 계측됩니다. 상관계수는 -1과 1 사이의 값을 가지며, 계측 값이 1에 가까울수록 두 변수가 정(+)의 상관관계가 있다고 할 수 있습니다. 텍스트 마이닝에서 활용되는 상관관계 분석 역시 같은 논리가 적용되며, 단어 간의 연관성을 분석하는 방법의 하나로서 활용됩니다. n-gram 분석은 n개의 연속적인 단어들의 나열이며, n이 1일 때 유니 그램(unigram), 2일 때 바이그램(bigram)이라고 합니다. 특히 아래 이미지처럼 아마존 리뷰 앞에 나타나는 read reviews that mention 이라는 부분이 있습니다. 전체 리뷰들의 핵심 키워드를 바이그램 형식으로 보여주고 있는데요. 해당 내용을 분석 및 실습해보겠습니다.
상관관계 n-gram 분석을 위한 아마존 리뷰 데이터셋
실습을 위해 Babyganics SPF 50 Baby Sunscreen Lotion UVA UVB Protect 의 아마존 리뷰 중 10페이지까지만 웹 스크랩 핑하였습니다. 해당 파일은 바로 아래 업로드해둘 테니 각자 내려받기 바랍니다.
유니그램(unigram) 분석 및 워드 클라우드 시각화
아마존 리뷰 텍스트마이닝에서 다루었던 대부분이 아래 그림처럼 단어 하나로 구성된 유니 그램이었다고 볼 수 있습니다. 빈도수 기준이며, 웹 스크랩 핑한 100개의 리뷰 중에 20회 이상 등장한 단어들만 추출하여 워드 클라우드로 시각화한 결과입니다.
단어 간의 상관관계 분석
웹스크래핑한 리뷰들 중에 sunscreen과 상관관계가 0.9 이상인 단어들을 모아 막대그래프 형식으로 시각화 결과입니다.
바이그램(bigram) 분석 및 시각화
n-gram 분석 중 단어가 2개 연속인 바이그램 분석결과를 워드 클라우드로 시각화 결과입니다.
정리
어린이 선크림 중 고객평점과 리뷰 건수가 가장 많은 Babyganics SPF 50 Baby Sunscreen Lotion UVA UVB Protect 제품을 이용하여 고객 리뷰 단어 간의 상관관계 분석과 n-gram 분석을 각각 실습하고, 해당 결과를 워드 클라우드로 구현하는 방법까지 알아보았습니다. 해당 R Script는 아래와 같이 업로드하였습니다. 위에 업로드한 아마존 리뷰 데이터셋과 함께 내려받아 연습해보기 바랍니다.
'교육' 카테고리의 다른 글
한 살 남자 여자 일본 장난감 선물 리뷰 텍스트마이닝│야후재팬 쇼핑 랭킹 100 (0) | 2022.06.29 |
---|---|
KHcoder│한글 복합어 불용어 처리 방법 │빅카인즈 (0) | 2022.06.28 |
아마존 재팬 일본 고객 불만 리뷰 텍스트 마이닝 │2022 어린이 선크림 (0) | 2022.06.23 |
어린이 선크림 아마존 고객 리뷰 동시 출현 네트워크 분석 │텍스트 마이닝 │KHcoder 활용 (0) | 2022.06.22 |
아마존 가짜 거짓 리뷰 확인 방법 : 어린이 선크림│reviewmeta.com (0) | 2022.06.21 |