댓글 분석 방법에 관하여 정리하여 공유합니다. 분석 도구는 R을 이용하며, 분석 대상은 국내 어린이 자외선 차단제(혹은 선크림) 중 화장품 전문 리뷰 어플인 글로우픽에서 임의로 하나를 골랐습니다. 분석 대상(제품명: 톡톡 페이셜 선팩트) 선택 후, 수집할 댓글을 확인하고, 리스틀리를 이용하여 분석 대상의 댓글을 모두 수집하였습니다. 그리고 엑셀로 저장한 댓글을 R로 호출하고, KoNLP 패키지 등을 이용하여 품사분석, 전처리 후, 빈도 분석 결과를 간단히 데이터 시각화(워드클라우드)로 구현한 결과를 모두 정리하여 공유하겠습니다. 특히 이번 포스팅에서 사용한 R 코드는 포스팅 하단에 있으니 실습이 필요한 분들은 내려받은 후, 활용해 보시기 바랍니다. 마지막으로 이처럼 R 한글 텍스트 마이닝 분석이 잘 되는 분들은 아이보스의 가마솥삼겹살님이 2024년 3월에 작성한 "리뷰와 데이터로 페르소나와 소구점 도출해 내기" 일독한 후, 인사이트를 얻어 보시기 바랍니다.
1. 어린이 자외선 차단제 선크림 선택 │feat, 글로우픽
댓글 사례 분석으로 이용할 화장품은 아래 캡처 이미지와 같은 어린이 자외선 차단제입니다. 캡처 이미지를 클릭하면, 글로우픽 웹사이트에서 바로 확인가능합니다. 특히 글로우픽의 댓글은 숨겨져 있으므로 리스틀리를 이용한 댓글 수집 전, 스크롤바를 끝까지 내려 모든 댓글이 드러나도록 만드는 것이 포인트입니다.
2. 댓글 수집 │리스틀리
리스틀리를 이용한 댓글 수집이 아래와 같이 완료되었습니다. 첫 번째 파일은 전혀 편집되지 않은 리스틀리를 이용하여 웹스크래핑한 파일을 그래도 업로드한 것입니다. 두 번째 파일(파일명, sun)은 댓글 분석을 할 예정이므로 두 개 이상의 셀에 널려 있는 텍스트(리뷰)들을 하나의 셀로 합쳐서 만든 파일입니다. R을 이용한 한글 텍스트 마이닝 분석은 당연히 엑셀로 편집한 두 번째 파일을 이용하겠습니다. R을 열어서 해당 파일을 불러옵니다. R을 이용한 한글 텍스트 마이닝 분석인 처음인 분들은 KoNLP 설치 포스팅부터 읽어보시기 바랍니다.
3. 댓글 분석 │전처리와 품사분석
품사 분석 후, 명사만 추출하여 일정 횟수 이상 등장한 명사만 이용하여 빈도수 기준의 막대그래프를 그리면 아래 캡처 이미지와 같습니다. 분석 결과를 통해 추가 전처리가 필요함을 확인할 수 있는데요. 붉은색 점 섬 박스로 처리한 단어들, 가령 "아이"와 "아이들", "사용하기", "사용하", "사용할"과 "사용"이 그러한 예 중 하나입니다. 따라서 "아이들"은 "아이"로 통일하고, "사용하기", "사용할", "사용하"는 모두 사용으로 통일시키는 추가 전처리를 실행합니다.
4. 댓글 분석 │추가 전처리와 워드클라우드 생성
추가 전처리 후, 빈도 분석 결과를 워드클라우드로 구현한 것이 아래와 같은 캡처 이미지입니다. 사용과 아이로 해당 단어들이 모두 통일되었음을 확인할 수 있는데요. "위생적" 이라든가 "은은한" 이라든가 하는 단어도 추가 전처리를 했어야 하지 않았을까 싶은데요. 희망하는 분들은 아래 R 코드가 있으니 연습도 할 겸 나머지 추가 전처리도 시도해 보시기 바랍니다.
5. R 다운로드
이번 댓글 사례 분석에서 사용한 R 코드 파일은 아래와 같습니다. 필요한 분들은 내려받은 후, 전처리에 유의해가면서 직접 실습해 보시기 바라며, 이번 포스팅은 여기서 마무리하겠습니다.
'정보' 카테고리의 다른 글
얼굴 고치기 AI 얼굴 바꾸기 │DZine. AI 사용법│Stylar. AI의 새이름 (4) | 2024.07.18 |
---|---|
AI 아이콘 로고 │무료로 빠르게 실시간 온라인에서 만드는 방법 │로고패스트 (0) | 2024.07.17 |
AI 옷 바꾸기 │AI 얼굴 바꾸기 │AI 아바타│FaceSwapper. AI 사용법 (0) | 2024.07.15 |
일본어 PDF 문서를 한 장의 마인드맵으로 무료 번역요약 방법 │Mapify (0) | 2024.07.14 |
LivePortrait│살아 움직이는 초상화 만들기 (0) | 2024.07.13 |