본문 바로가기

교육

한국 화장품 일본 소비자 리뷰 No Coding 무료 텍스트마이닝│코딩하지 않고 동시 출현 네트워크 분석│KHcoder │韓国 コスメ Yahooショッピングレビューの共起語を探す

한국 화장품에 대한 일본 소비자들의 리뷰, 구매후기를 코딩하지 않고(No Coding) 수집, 분석하는 텍스트 마이닝을 실행하겠습니다. 리스틀리(listly)와 KHcoder를 이용하면 가능한데요. 여러 분석 기법 중 동시 출현 네트워크 분석을 통해 한국 화장품에 대한 야후 쇼핑 리뷰의 핵심 키워드를 발굴하고, 연관어(共起語)를 도출해보겠습니다. 

 

1. 야후 쇼핑, 한국 화장품 카테고리에서 소비자 리뷰 수집 (feat listly)

사전에 야후 재팬 쇼핑 │야후 재팬 실시간 검색 │야후 재팬에서 알 수 있는 것들 이라는 포스팅에서 야후 쇼핑의 한국 화장품 카테고리를 소개한 바 있습니다. 아직 확인하지 못한 분들은 해당 포스팅을 참고해주기 바랍니다. 특히 화장품 리뷰 텍스트 마이닝을 실행해야 합니다. 해당 포스팅을 참고하여 리스 틀리(listly)를 활용한 화장품 리뷰들을 코딩하지 않고(No Coding) 모두 수집해 주기 바랍니다. 참고로 분석 예제로 활용할 화장품의 리뷰는 총 192개이며, 모두 리스틀리(listly)를 통해 수집하였습니다. 

 

2. 수집된 한국 화장품 리뷰들의 재정렬 

야후 쇼핑의 한국 화장품 카테고리에서 관심있는 화장품 리뷰 수집이 모두 완료되었다면, KHcoder의 분석 폼에 맞도록 텍스트 데이터를 다시 정렬해야 합니다. 만일 KHcoder가 처음인 분들은  이전 포스팅 [카드 뉴스] khcoder3 사용법│텍스트 마이닝 무료 분석 툴을 먼저 확인해주기 바랍니다.
KHcoder 분석을 위한 텍스트 데이터 폼의 구성은 어렵지 않습니다.  KHcoder를  설치할 때 자동 생성되는 tutorial_en 폴더 안에 있는 Anne 예제 파일 형식대로 만들면 됩니다. 이번 포스팅을 위해 사전에 작성한 실습 파일도 아래 업로드해 두겠습니다.
혹시 이해가 안 되는 분들은 아래 엑셀 파일 형식대로 본인이 수집한 화장품 리뷰들을 재구성하기 바랍니다. 가령, 엑셀 헤드 네임인 text에는 리뷰를, part에는 작성일자를 그리고 chapter에는 고객 평점을 입력하면 되겠습니다.  
일본 소비자들의 한국 화장품 리뷰들을 텍스트 마이닝할 것이므로 text의 리뷰들은 꼭 필요하지만, 그 외 데이터들은 자유롭게 구성하면 됩니다. 물론 헤드 이름인 text, part, chapter도 변경 가능합니다.

review.xlsx
0.03MB
KHcoder 분석을 위한 데이터 재구성
KHcoder 분석을 위한 데이터 재구성

 

3.  KHcoder를 이용한 텍스트 마이닝 : 동시 출현 네트워크 분석과 종류 

모든 사전 준비가 완료되었다면, 이제  KHcoder를 이용하여 코딩하지 않고(No Coding), 텍스트 마이닝을 실행해보겠습니다. 다음 그림처럼 New 메뉴를 눌러 분석할 파일을 불러옵니다. 또한 텍스트 마이닝에서 가장 중요한 절차인 데이터를 정제하는 전처리(pre-processing)는 그림처럼 해당 메뉴를 눌러 실행합니다.

KHcoder 리뷰 데이터 불러오기
KHcoder 리뷰 데이터 불러오기

 

텍스트 데이터 전처리 실행하기
텍스트 데이터 전처리 실행하기

 

KHcoder에서 제공하는 동시 출현 네트워크 분석 종류는 크게 3가지(betweenness centrality, random walks,  modularity)가 있습니다. 동시 출현 네트워크 분석 결과의 출력 화면 왼쪽 하단에 메뉴를 클릭해보면 확인 가능합니다. 각자 확인 바랍니다. 또한 분석 결과를 HTML로도 출력할 수 있으며, 내 컴퓨터로 해당 출력 이미지를 저장할 수도 있습니다. 

KHcoder의 동시출현네트워크 분석결과 : 매개중심성(betweenness centrality)
KHcoder의 동시출현네트워크 분석결과 : 매개중심성(betweenness centrality)

 

4. 고객 평점과 리뷰 키워드 관계 분석 : 韓国 コスメレビュー の共起語を探す

리뷰 분석을 통해 한국 화장품에 대한 일본 소비자들의 마음을 읽어보겠습니다. 이를 위해 우선  아래 그림처럼 사전에 분석방법을 설정해야 합니다. 일단 분석 예제에서는 최소 10회 이상 출현한 명사만 가지고 분석을 실시했습니다. 또한 엣지 타입(edge type)을 단어-변수로 하되, 변수는 고객 평점(chapter)으로, 엣지 필터는 코사인으로, 상관분석 결괏값도 표시되도록 설정하고 실행시켰습니다. 

고객평점과 리뷰 간의 동시출현네트워크 분석을 위한 옵션값들의 설정
고객평점과 리뷰 간의 동시출현네트워크 분석을 위한 옵션값들의 설정

 

분석 결과인 아래 그림은 고객 평점과 리뷰 키워드 간의 관계를 시각화하여 제시하고 있습니다. 즉 고객 평점 별로 핵심 키워드는 무엇이고, 어느 정도의 상관관계를 가지는지를 보여주고 있는데요. 고객 평점과 연결된 리뷰 키워드 간의 관계를 통해 고객의 만족 요인과 불만족 요인이 무엇인지 추측해 볼 수 있습니다.
가령, 대표적인 만족 요인은 가성비입니다. 그 외에  사용 이후 (피부) 상태(調子)의 개선, 냄새(匂い)도 없다는 등 상품 자체 기능과 특성이 구매 만족 요인으로 언급되고 있습니다. 불만족 요인은 성분(成分)이라는 키워드가 도출되고 있습니다. 키워드를 누르면, 해당 키워드가 포함된 리뷰(가령, 成分が SK2 と一緒と書いてあった)를 확인할 수 있습니다. 즉 상품 성분 설명 등에 고객이 오해할 수 있는 문구를 포함시켜서는 안된다는 점을 상기할 필요가 있습니다. 

고객평점과 리뷰 키워드 간의 동시출현네트워크 분석결과
고객평점과 리뷰 키워드 간의 동시출현네트워크 분석결과

 

5. 실습 영상 

지금까지 설명한 내용들은 아래 실습 영상에 담았습니다. 위에서 설명한 내용과 실습 영상을 함께 보면서 직접 분석해보기 바랍니다. 

일본어 텍스트마이닝 │KHcoder 설치부터 동시출현네트워크분석까지 

 

6. 정리

야후쇼핑에서 한국 화장품에 대한 일본 소비자 리뷰를 코딩하지 않고, 수집과 텍스트 마이닝 실습을 각각 진행해보았습니다. 동시 출현 네트워크 분석을 통해 일본 소비자들의 고객 평점과 리뷰 키워드 간의 관계를 규명하고, 마케팅 소구점을 찾아보았다는 점에서 이번 포스팅의 의미가 있다고 하겠습니다. 특히 연습용 예제 파일과 교육 영상을 모두 업로드해두었으니, 일본으로의 해외 판매를 준비 중인 예비 셀러분들에게 도움이 되었으면 좋겠습니다.