본문 바로가기

교육

무료 일본어 AI 자동 텍스트 마이닝 사이트 사용법 (2) │아마존 재팬 고객 리뷰 분석 │User Local(ユーザーローカル)

이번 포스팅은 User Local(ユーザーローカル)을 이용하여 일본어 고객 리뷰를 자동 텍스트 마이닝 분석해 봅니다. 예제로 사용할 리뷰는 지난 포스팅에서 사용했던 아마존 재팬의 유기농 립스틱 상품이며, 코딩하지 않고 아마존 리뷰를 수집하는 방법은 다음 포스팅을 참고하기 바랍니다.

 

댓글 분석 │LDA 토픽 모델링 │R 한글 텍스트 마이닝

지난 포스팅에서는 어린이 자외선 차단제 댓글들을 이용하여 품사분석, 전처리 그리고 빈도분석까지 실행해 보았습니다. 이번 포스팅에서는 이어서 잠재 디리클레 할당(Latent Dirichlet Allocation,

e-datanews.tistory.com

 

무료 웹스크래핑 Dataminer 사용 방법 │아마존 고객 리뷰 │keto diet

웹스크래핑 서비스인 dataminer 사용 방법을 정리합니다. 미리 말씀드리면, 정말 매우 간단합니다. 다만, 일정한 페이지까지는 웹스크래핑이 무료이나, 무료 서비스 이용 범위를 넘어서면 과금된

e-datanews.tistory.com

 

1. 로그인 및 분석 파일 업로드

지난 첫번째 포스팅을 참고하여 User Local(ユーザーローカル)의 로그인을 먼저 합니다. 그리고 "해석하고 싶은 파일을 입력한다(解析したい テキスト を入力する)" 에서 한 개의 문서를 분석(1つの文書を解析) 그리고 두 번째 서브 메뉴인 파일 업로드(ファイル を アップロード)를 클릭합니다. 그리고 준비한 아마존 재팬의 유기농 립스틱 상품 리뷰를 업로드합니다. 파일 업로드가 완료된 후에는 입력창 하단의 텍스트마이닝 실행(テキストマイニング する) 버튼을 클릭하면, 자동으로 고객 리뷰 분석이 실행됩니다. 연습용 아마존 재팬 고객 리뷰 엑셀 파일도 업로드해 두겠습니다. 

서비스 로그인 및 텍스트 데이터 업로드
서비스 로그인 및 텍스트 데이터 업로드
B07WS6W2PC.xlsx
0.02MB

 

 

KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석

이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다. 1. 두 개 이상의 문

e-datanews.tistory.com

 

2. 분석 결과 : 워드클라우드

분석 결과는 워드클라우드, 품사별 단어출현빈도, 동시 출현 네트워크 분석, 2차원맵, 품사별 관계 해석(係り受け解析), 계층적 군집분석 순서로 자동 도출됩니다. 먼저 워드클라우드 분석 결과는 다음과 같습니다. 분석결과에 따르면, 보습력(湿る), 발색(発色), 사용법(塗りやすい, 使いやすい), 유기농(オーガニック) 등 관련 상품 특성에 대한 단어들을 중심으로 워드클라우드가 구현되었음을 알 수 있습니다. 또한 워드클라우드 분석결과처럼 플롯팅 된 이미지 상단에 마우스 커서를 올려놓으면 해당 이미지를 png, svg 등의 확장자를 가진 파일을 내 컴퓨터로 내려받을 수 있습니다. 

분석 결과 : 워드클라우드
분석 결과 : 워드클라우드

 

텍스트 마이닝 사이트│웹페이지 데이터 추출 │워드클라우드 자동 생성과 토픽 모델링 분석

Auto Textmining 무료 도구인 voyant-tools를 활용한 웹페이지 데이터 추출과 이를 활용한 워드클라우드, 토픽 모델링 분석 방법을 정리합니다. Auto Textmining Free│2개 이상의 PDF 문서 텍스트 추출│네트

e-datanews.tistory.com

 

3. 분석 결과 : 단어 출현 빈도

단어들의 출현 수준을 나타내며, 분석 결과는 엑셀 파일 등으로 내려받을 수도 있습니다. 지난 포스팅에서 설명한 바와 같이 단어들의 품사별로 각 단어들의 색상이 다르게 표시됩니다. 분석 파일은 엑셀로 내려받을 수 있고, 실제로 내려받은 파일도 업로드해 두겠습니다. 

분석 결과 : 단어 출현 빈도
분석 결과 : 단어 출현 빈도
B07WS6W2P..._frequency.csv
0.01MB

 

 

R 한글 텍스트 마이닝 (1) │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도

지난 포스팅에서 한글 텍스트 마이닝 분석을 위한 KoNLP 설치하는 방법까지 설명하였습니다. 이어서 테스트도 할 겸 엑셀의 텍스트 데이터를 호출하고, 빈도 분석까지 간단히 정리해 보겠습니다.

e-datanews.tistory.com

 

4. 분석 결과 : 2차원 맵

출현경향이 유사한 단어들은 가깝게 맵핑한 후, 해당 단어들은 같은 색으로 그룹화하여 구현합니다. 분석 결과 역시 내려받을 수 있습니다. 

분석 결과 : 2차원 맵
분석 결과 : 2차원 맵

 

KH Coder3 대응분석│삼성 현대차 SK그룹의 경영철학 비교 │한글 텍스트 마이닝

KH Coder3을 이용한 한글 텍스트 마이닝 분석 방법 중 대응분석 사용방법에 대하여 정리하겠습니다. 대응분석이란 2개 이상의 명목 척도로 측정된 범주형 변수들 간의 연관성을 분석하고 이를 플

e-datanews.tistory.com

 

5. 분석 결과 : 품사별 관계 해석(係り受け解析)

각 품사별도 대응하여 관계를 해석합니다. 해당 분석을 통해 특정 단어의 의미를 좀 더 분명히 이해할 수 있게 됩니다. 가령, 「高い(높음)」→「高くない(높지 않다)」)처럼 관계 해석을 통해 전혀 다른 해석 결과를 얻을 수도 있습니다. 분석 결과인 아래 이미지를 보면, 명사인 色味(색감)과 형용사인 可愛い(귀여워)가 대응되어 해당 립스틱 색감에 대한 고객들의 반응을 알 수 있게 됩니다. 이처럼 User Local(ユーザーローカル)에서는 명사-형용사 외에도 명사-동사, 명사-명사의 관계 해석 결과를 자동 제시해 줍니다. 

분석 결과 : 관계 해석
분석 결과 : 관계 해석

 

R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리

이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에

e-datanews.tistory.com

 

6. 분석 결과 : 계층적 군집분석

이전 포스팅에서도 이야기했습니다만, 각 단어 간에 출현하는 경향이 비슷한 단어들을 같은 색상으로 군집화하여 제시함으로써 고객 리뷰의 주요 내용들을 추론해 볼 수 있습니다. 

분석 결과 : 계층적 군집 분석
분석 결과 : 계층적 군집 분석

 

유사도 지수 차이 비교 │ Jaccard │Dice│ Simpson 계수 │KH Coder3 동시출현네트워크분석

KH Coder3가 제공하는 유사도 지수 계산 방법은 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수, 코사인(Cosine), 유클리디안 (Euclidean)이 있습니다. 이들 유사도 지수 계측 방법은 KH Coder3가 제공하는 텍

e-datanews.tistory.com

 

7. 분석 결과 : 감정 분석

해당 상품에 대한 고객 리뷰 감정분석 결과를 요약하면 다음과 같습니다. 긍정(초록색)적 비중이 20.2%, 부정(붉은색)적 비중이 20.2%를 차지하고 있어 감정분석을 통해 고객들의 반응을 엿볼 수 있습니다. 

분석 결과 : 감정 분석
분석 결과 : 감정 분석

 

왼손잡이 선물 추천 │아마존 고객 구매후기 │텍스트마이닝 │감성분석 │Left Handed Gifts │Analyz

왼손잡이 선물 추천 │아마존 고객 구매후기 │텍스트마이닝 │감성분석 │Left Handed Gifts │Analyzing Review of Amazon Customer │Focusing on Text mining Analysis 이번 포스팅에서는 왼손잡이 지구인들을 위한

e-datanews.tistory.com

 

8. 분석 결과 : 문서 요약

해당 상품 고객 리뷰는 챗 GPT 서비스를 이용하여 요약해줍니다. 아래 그림은 해당 상품 고객 리뷰를 요약한 것으로 해석 결과는 다음과 같습니다. 

분석 결과 : 챗 GPT 활용 문서 요약 결과
분석 결과 : 챗 GPT 활용 문서 요약 결과

더보기

この文章は、ある商品の レビュー です。 レビュー では、商品の使用感や効果、香りなどが述べられています。一部の人は商品の硬さや伸びに不満を持っているようですが、色味や保湿力には満足している人もいます。 また、オーガニック の成分や カラーリップ の特徴についても言及されています。全体的には、好みや肌質によって評価が分かれるようです。

이 글은 한 제품의 리뷰입니다. 리뷰에는 제품의 사용감, 효과, 향 등에 대한 내용이 담겨 있다. 일부 사람들은 제품의 경도와 신축성에 대해 불만을 표시하고 있지만, 색감과 보습력에는 만족하는 사람들도 있다. 또한, 유기농 성분과 컬러 립스틱의 특징에 대해서도 언급하고 있다. 전반적으로 취향과 피부 타입에 따라 평가가 엇갈리는 것 같다.

이 글은 한 제품의 리뷰입니다. 리뷰에는 제품의 사용감, 효과, 향 등에 대한 내용이 담겨 있다. 일부 사람들은 제품의 경도와 신축성에 대해 불만을 표시하고 있지만, 색감과 보습력에는 만족하는 사람들도 있다. 또한, 유기농 성분과 컬러 립스틱의 특징에 대해서도 언급하고 있다. 전반적으로 취향과 피부 타입에 따라 평가가 엇갈리는 것 같다.

 

웹사이트 자동 요약과 번역 │최신 정보 자동 요약과 번역 │BING │ChatGPT

마이크로 소프트사의 Bing 검색 서비스를 이용하여 웹사이트 내용을 자동 요약하고, 번역하는 기능을 사례 자료를 통해 정리하겠습니다. 해당 기능은 ChatGPT 3.5 혹은 4.0에 포함된 기능이므로 Bing

e-datanews.tistory.com

 

9. 분석 결과 : 하이라이트

문서 요약 기능 중 하이라이트 기능도 있습니다. 아래 이미지처럼 문서에서 중요한 부분을 강조하여 표시합니다. 다음 결과는 하이라이트 중 "히트맵"으로 하이라이트를 구현한 결과입니다. 

분석 결과 : 문서 요약 기능 중 하이라이트 히트맵 결과
분석 결과 : 문서 요약 기능 중 하이라이트 히트맵 결과

이 외에도 "마커", "모노톤"이라는 서비스 기능도 있습니다. 그 중 우선  "마커" 표시 기능은 중요한 부분을 빨간색으로 강조 표시합니다. "히트맵" 표시의 경우에는 빨강(중요도 높음), 노랑(중요도 중간), 파랑(중요도 낮음)으로 문장의 중요도를 색으로 구분하여 표시합니다. '모노톤' 표시에서는 중요한 부분의 문장일수록 진하고 크게 표시합니다.