본문 바로가기

정보

댓글 분석 │어린이 자외선 차단제 선크림 사례│R 한글 텍스트 마이닝

댓글 분석 방법에 관하여 정리하여 공유합니다. 분석 도구는 R을 이용하며, 분석 대상은 국내 어린이 자외선 차단제(혹은 선크림) 중 화장품 전문 리뷰 어플인 글로우픽에서 임의로 하나를 골랐습니다. 분석 대상(제품명: 톡톡 페이셜 선팩트) 선택 후, 수집할 댓글을 확인하고, 리스틀리를 이용하여 분석 대상의 댓글을 모두 수집하였습니다. 그리고 엑셀로 저장한 댓글을 R로 호출하고, KoNLP 패키지 등을 이용하여 품사분석, 전처리 후, 빈도 분석 결과를 간단히 데이터 시각화(워드클라우드)로 구현한 결과를 모두 정리하여 공유하겠습니다. 특히 이번 포스팅에서 사용한 R 코드는 포스팅 하단에 있으니 실습이 필요한 분들은 내려받은 후, 활용해 보시기 바랍니다. 마지막으로 이처럼 R 한글 텍스트 마이닝 분석이 잘 되는 분들은 아이보스의 가마솥삼겹살님이 2024년 3월에 작성한 "리뷰와 데이터로 페르소나와 소구점 도출해 내기" 일독한 후, 인사이트를 얻어 보시기 바랍니다. 

 

N-Gram 댓글 분석 │R 한글 텍스트 마이닝 │어린이 자외선 차단제 선크림

N-Gram은 말 그대로 N개의 연속적인 단어들의 나열을 뜻합니다. 코퍼스에서 N개의 단어로 나누고 이를 하나의 토큰으로 간주합니다. 여기서 N이 한 개 일 때는 유니그램(unigram), 두 개일 때는 바이

e-datanews.tistory.com

 

댓글 분석 │LDA 토픽 모델링 │R 한글 텍스트 마이닝

지난 포스팅에서는 어린이 자외선 차단제 댓글들을 이용하여 품사분석, 전처리 그리고 빈도분석까지 실행해 보았습니다. 이번 포스팅에서는 이어서 잠재 디리클레 할당(Latent Dirichlet Allocation,

e-datanews.tistory.com

 

2024 한국 유튜브 트렌드│키워드 검색 요약 정리 │소나스테이션 │소나플로우 사용법

2024 한국 유튜브 트렌드라는 키워드를 이용하여 소나스테이션의 소나플로우 사용법을 간단히 정리하여 공유하겠습니다. 뒤에서 설명 및 정리하는 내용들을 보시면 아시겠지만, 특정 키워드를

e-datanews.tistory.com

 

2022 어린이 아기 선크림 아마존 추천 │미국 피부과 의사 추천 상품

이번 포스팅에서는 미국 피부과 의사들이 추천하고, 아마존 US에서 구매 가능한 어린이 선크림 6개 품목을 정리하겠습니다. 해당 원문은 뉴욕 메거진 the Strategist의 2019년 기사를 참고했으며, 이

e-datanews.tistory.com

 

아마존 가짜 거짓 리뷰 확인 방법 : 어린이 선크림│reviewmeta.com

이전 포스팅에서는 아마존에서 구매 가능한 유아 어린이 선크림(sunscreen) 제품들을 살펴보았습니다. 이번 포스팅에서는 이어서 리뷰 메타를 이용하여 유아 어린이 자외선 차단제 중 상품 하나를

e-datanews.tistory.com

 

1. 어린이 자외선 차단제 선크림 선택 │feat, 글로우픽

댓글 사례 분석으로 이용할 화장품은 아래 캡처 이미지와 같은 어린이 자외선 차단제입니다. 캡처 이미지를 클릭하면, 글로우픽 웹사이트에서 바로 확인가능합니다. 특히 글로우픽의 댓글은 숨겨져 있으므로 리스틀리를 이용한 댓글 수집 전, 스크롤바를 끝까지 내려 모든 댓글이 드러나도록 만드는 것이 포인트입니다. 

톡톡 페이셜 선팩트 댓글 │글로우픽
톡톡 페이셜 선팩트 댓글 │글로우픽

 

마인드맵으로 유튜브 영상 분석 │아이폰15 케이스│Mapify 사용법

유튜브 영상 내용을 요약하는 다양한 AI 도구들을 소개한 바 있는데요. 가령, QuickVid, YTsuummarizer.io, Lilys.AI, Glarity ChatGPT, TRAW, Youtube summary with ChatGPT 가 그러한 예라고 할 수 있습니다. 이번 포스팅

e-datanews.tistory.com

 

2. 댓글 수집 │리스틀리

리스틀리를 이용한 댓글 수집이 아래와 같이 완료되었습니다. 첫 번째 파일은 전혀 편집되지 않은 리스틀리를 이용하여 웹스크래핑한 파일을 그래도 업로드한 것입니다. 두 번째 파일(파일명, sun)은 댓글 분석을 할 예정이므로 두 개 이상의 셀에 널려 있는 텍스트(리뷰)들을 하나의 셀로 합쳐서 만든 파일입니다. R을 이용한 한글 텍스트 마이닝 분석은 당연히 엑셀로 편집한 두 번째 파일을 이용하겠습니다. R을 열어서 해당 파일을 불러옵니다. R을 이용한 한글 텍스트 마이닝 분석인 처음인 분들은 KoNLP 설치 포스팅부터 읽어보시기 바랍니다. 

SINGLE_20240716_135101.xlsx
0.02MB
sun.xlsx
0.01MB

 

댓글 마케팅 분석 활용 : 퍼플렉시티 AI와 클로드 3.5 소네트 비교

소비자, 이용자 반응인 댓글 분석 결과는 마케팅 측면에서 시사하는 바가 큽니다. 이번 포스팅에서는 웹스크래핑된 댓글들을 퍼플렉시티 AI와 클로드 3.5 소네트의 파일 첨부 기능을 활용하여 업

e-datanews.tistory.com

 

3. 댓글 분석 │전처리와 품사분석 

품사 분석 후, 명사만 추출하여 일정 횟수 이상 등장한 명사만 이용하여 빈도수 기준의 막대그래프를 그리면 아래 캡처 이미지와 같습니다. 분석 결과를 통해 추가 전처리가 필요함을 확인할 수 있는데요. 붉은색 점 섬 박스로 처리한 단어들, 가령 "아이"와 "아이들", "사용하기", "사용하", "사용할"과 "사용"이 그러한 예 중 하나입니다. 따라서 "아이들"은 "아이"로 통일하고, "사용하기", "사용할", "사용하"는 모두 사용으로 통일시키는 추가 전처리를 실행합니다. 

R 한글 텍스트 마이닝 빈도 분석 결과 │막대 그래프
R 한글 텍스트 마이닝 빈도 분석 결과 │막대 그래프

 

아이폰15 스마트폰 케이스 일본 리뷰 분석 사례 │야후재팬 │구글 노트북LM

웹스크래핑한 아이폰 15 케이스에 관한 일본 리뷰를 구글 노트북 LM으로 분석해 보고, 어떤 마케팅 인사이트를 얻을 수 있는지 정리하는 포스팅입니다. 구글 노트북 LM의 기본적인 사용법과 아이

e-datanews.tistory.com

 

4. 댓글 분석 │추가 전처리와 워드클라우드 생성

추가 전처리 후, 빈도 분석 결과를 워드클라우드로 구현한 것이 아래와 같은 캡처 이미지입니다. 사용과 아이로 해당 단어들이 모두 통일되었음을 확인할 수 있는데요. "위생적" 이라든가 "은은한" 이라든가 하는 단어도 추가 전처리를 했어야 하지 않았을까 싶은데요. 희망하는 분들은 아래 R 코드가 있으니 연습도 할 겸 나머지 추가 전처리도 시도해 보시기 바랍니다. 

R 한글 텍스트 마이닝 빈도 분석 결과 │워드클라우드
R 한글 텍스트 마이닝 빈도 분석 결과 │워드클라우드

 

노트북 (Notebook) LM│리뷰 분석 보고서 작성 활용 방법

이번 포스팅의 원래 목적은 구글의 노트북 LM을 이용하여 댓글에 대한 감성평가(Sentiment Analysis)를 시도해보는 것이었는데요. 결론 먼저 말씀드리면, 텍스트마이닝의 감성평가 결과처럼 긍정, 부

e-datanews.tistory.com

 

5. R 다운로드 

이번 댓글 사례 분석에서 사용한 R 코드 파일은 아래와 같습니다. 필요한 분들은 내려받은 후, 전처리에 유의해가면서 직접 실습해 보시기 바라며, 이번 포스팅은 여기서 마무리하겠습니다. 

댓글분석 R_품사분석_전처리_빈도분석.txt
0.00MB