비건 스킨케어 해외 뉴스 데이터를 NewsAPI를 이용하여 수집 및 저장하고, KHCoder로 호출한 후, 불용어 등 데이터 정제 방법에 관하여 정리합니다.
1. 비건 스킨케어 해외 뉴스 수집 │KHCoder로 텍스트 데이터 호출
NewsAPI를 이용한 비건 스킨케어 해외 뉴스 데이터를 수집하고, 해당 데이터를 KHCoder로 호출합니다. 수집된 뉴스 데이터는 아래 파일을 이용하였습니다. 실습이 필요한 분들은 업로드된 다음 파일을 이용하기 바랍니다.
텍스트 네트워크를 분석할 데이터는 description입니다. 텍스트 데이터를 호출할 경우 target을 해당 셀로 지정하고, 전처리를 실행하기 바랍니다. 전처리 완료 후에는 동시출현네트워크분석을 실행한 후, 아래 이미지와 같은 조건으로 분석 조건을 수정합니다.
2. 1차 분석 결과 확인
분석 조건을 입력한 후, 1차 분석 결과를 아래 이미지와 같이 확인합니다. 총 7개의 하위 군집이 생성되었음을 확인할 수 있으나, 3번 군집분석 결과에 보면, " ¡ " 와 " ¦ " 같은 추가적인 불용어 처리가 필요함을 확인할 수 있습니다.
3. 불용어 처리 단어 확인
추가적인 데이터 정제 작업이 필요한 단어들을 클릭하여 텍스트 전문을 확인하여 불용어로 처리해도 문제가 없는지 다시 확인 확인합니다. 해당 예제에서는 큰 문제가 없을 것 같고, 추가적인 데이터 정제 작업이 필요할 것으로 판단됩니다.
4. 데이터 정제 │불용어 입력
아래 이미지와 같이 Select Words to Analysis 메뉴를 클릭하여 불용어 처리란에 " ¡ " 와 " ¦ "를 입력합니다. 불용어로 입력할 단어를 추가한 후에는 반드시 Enter로 입력을 완료해야 하며, 불용어 입력이 완료된 후에는 전처리를 반드시 다시 실행해야 합니다.
5. 데이터 정제 후 최종 분석 결과 확인
불용어 처리까지 데이터를 정제한 후, 최종 분석 결과는 아래 이미지와 같습니다. 불용어 처리했던 보라색 군집은 비건 헤어트리트먼트에 관한 뉴스로 추정됩니다. 물론 보다 정확한 내용은 해당 단어를 클릭하여 전문을 확인할 수 있습니다.
6. 정리
앞의 여러 포스팅에서 사용했던 빅카인즈 국내 뉴스데이터 수집, 분석결과와 NewsAPI를 이용한 해외 뉴스 수집, 분석 결과를 비교하여 검토한다면, 특정 키워드에 국내외 뉴스들의 공통점과 차이점을 비교해 볼 수도 있을 것 같습니다. 다만, News API를 무료로 이용하는 경우 보통 한 달 정도의 뉴스 데이터만 수집 가능하다는 점은 다시 말씀드립니다.
'교육' 카테고리의 다른 글
R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리 (0) | 2023.10.01 |
---|---|
R 한글 텍스트 마이닝 (1) │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도분석 시각화 (0) | 2023.09.24 |
2023 구글 키워드 플래너 사용법 (0) | 2023.06.20 |
AI 무료 교육 │해외 추천 강의 Best 3 (0) | 2023.06.19 |
Copilot Amazon│ChatGPT for Amazon 사용법 (0) | 2023.06.16 |