본문 바로가기

교육

해외 뉴스 텍스트 네트워크 분석 │영어 데이터 정제 방법

비건 스킨케어 해외 뉴스 데이터를 NewsAPI를 이용하여 수집 및 저장하고, KHCoder로 호출한 후, 불용어 등 데이터 정제 방법에 관하여 정리합니다. 

 

국제 뉴스 데이터 수집과 분석│News API in R

이번 포스팅에서는 News API( https://newsapi.org/ )를 통해 국제 뉴스 데이터를 수집하기 위한 R 스크립트를 공유하고, 기초적인 텍스트 마이닝 분석을 통해 빈도수 기준 핵심 키워드를 도출하는 실습

e-datanews.tistory.com

 

1. 비건 스킨케어 해외 뉴스 수집 │KHCoder로 텍스트 데이터 호출

NewsAPI를 이용한 비건 스킨케어 해외 뉴스 데이터를 수집하고, 해당 데이터를 KHCoder로 호출합니다. 수집된 뉴스 데이터는 아래 파일을 이용하였습니다. 실습이 필요한 분들은 업로드된 다음 파일을 이용하기 바랍니다. 

veganskin_0622.csv
0.09MB

 

텍스트 네트워크를 분석할 데이터는 description입니다. 텍스트 데이터를 호출할 경우 target을 해당 셀로 지정하고, 전처리를 실행하기 바랍니다. 전처리 완료 후에는 동시출현네트워크분석을 실행한 후, 아래 이미지와 같은 조건으로 분석 조건을 수정합니다. 

동시출현네트워크분석 조건 입력
동시출현네트워크분석 조건 입력

 

 

무료 일본어 AI 자동 텍스트 마이닝 사이트 사용법 (2) │아마존 재팬 고객 리뷰 분석 │User Local(

이번 포스팅은 User Local(ユーザーローカル)을 이용하여 일본어 고객 리뷰를 자동 텍스트 마이닝 분석해 봅니다. 예제로 사용할 리뷰는 지난 포스팅에서 사용했던 아마존 재팬의 유기농 립스틱

e-datanews.tistory.com

 

2. 1차 분석 결과 확인

분석 조건을 입력한 후, 1차 분석 결과를 아래 이미지와 같이 확인합니다. 총 7개의 하위 군집이 생성되었음을 확인할 수 있으나, 3번 군집분석 결과에 보면, " ¡ "  와  " ¦ "  같은 추가적인 불용어 처리가 필요함을 확인할 수 있습니다. 

동시출현네트워크분석 1차 결과 확인
동시출현네트워크분석 1차 결과 확인

 

R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리

이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에

e-datanews.tistory.com

 

3. 불용어 처리 단어 확인

추가적인 데이터 정제 작업이 필요한 단어들을 클릭하여 텍스트 전문을 확인하여 불용어로 처리해도 문제가 없는지 다시 확인 확인합니다. 해당 예제에서는 큰 문제가 없을 것 같고, 추가적인 데이터 정제 작업이 필요할 것으로 판단됩니다. 

데이터 정제를 위한 불용어 단어 확인
데이터 정제를 위한 불용어 단어 확인

 

R 한글 텍스트 마이닝 분석 (4) : tidygraph와 ggraph │키워드 네트워크 분석

R을 이용한 한글 텍스트 마이닝 분석 다섯 번째 포스팅 주제는 tidygraph와 ggraph를 이용한 키워드 네트워크 분석입니다. 이전에 활용한 네이버의 생성형 AI 서비스 큐 보도자료를 계속 인용하겠습

e-datanews.tistory.com

 

4. 데이터 정제 │불용어 입력

아래 이미지와 같이 Select Words to Analysis 메뉴를 클릭하여 불용어 처리란에 " ¡ "  와  " ¦ "를 입력합니다. 불용어로 입력할 단어를 추가한 후에는 반드시 Enter로 입력을 완료해야 하며, 불용어 입력이 완료된 후에는 전처리를 반드시 다시 실행해야 합니다. 

Select Words to Analysis │불용어 입력 완료
Select Words to Analysis │불용어 입력 완료

 

AI 자동 무료 텍스트 마이닝 일본어 사이트 사용법 (1)│ユーザーローカル

무료로 일본어 AI 텍스트 마이닝을 자동으로 구현해 볼 수 있는 대표적인 웹사이트는 User Local(ユーザーローカル)입니다. 최근 User Local(ユーザーローカル)이 여러 가지 기능들을 개선 및 제공하

e-datanews.tistory.com

 

5. 데이터 정제 후 최종 분석 결과 확인

불용어 처리까지 데이터를 정제한 후, 최종 분석 결과는 아래 이미지와 같습니다. 불용어 처리했던 보라색 군집은 비건 헤어트리트먼트에 관한 뉴스로 추정됩니다. 물론 보다 정확한 내용은 해당 단어를 클릭하여 전문을 확인할 수 있습니다. 

비건 스킨케어 해외 뉴스 텍스트 네트워크 최종 분석 결과
비건 스킨케어 해외 뉴스 텍스트 네트워크 최종 분석 결과

 

텍스트 마이닝 사이트│웹페이지 데이터 추출 │워드클라우드 자동 생성과 토픽 모델링 분석

Auto Textmining 무료 도구인 voyant-tools를 활용한 웹페이지 데이터 추출과 이를 활용한 워드클라우드, 토픽 모델링 분석 방법을 정리합니다. Auto Textmining Free│2개 이상의 PDF 문서 텍스트 추출│네트

e-datanews.tistory.com

 

6. 정리

앞의 여러 포스팅에서 사용했던 빅카인즈 국내 뉴스데이터 수집, 분석결과와 NewsAPI를 이용한 해외 뉴스 수집, 분석 결과를 비교하여 검토한다면, 특정 키워드에 국내외 뉴스들의 공통점과 차이점을 비교해 볼 수도 있을 것 같습니다. 다만, News API를 무료로 이용하는 경우 보통 한 달 정도의 뉴스 데이터만 수집 가능하다는 점은 다시 말씀드립니다. 

 

무료 웹스크래핑 Dataminer 사용 방법 │아마존 고객 리뷰 │keto diet

웹스크래핑 서비스인 dataminer 사용 방법을 정리합니다. 미리 말씀드리면, 정말 매우 간단합니다. 다만, 일정한 페이지까지는 웹스크래핑이 무료이나, 무료 서비스 이용 범위를 넘어서면 과금된

e-datanews.tistory.com