본문 바로가기

교육

텍스트 마이닝 무료 도구 │voyant tools│데이터 입력과 불용어 처리 방법

코딩하지 않고 자동으로 텍스트 마이닝 실행할 수 있는 무료 도구인 voyant tools의 데이터 입력과 불용어 처리방법에 관하여 정리합니다. voyant tools는 오픈 소스 웹 기반의 텍스트 마이닝 도구로서  Stéfan Sinclair( McGill ) Geoffrey Rockwell( University of Alberta )에 의해 개발되었습니다. 관련 설명은 위키 문서에도 있으니, 보다 자세한 설명은 위키 문서를 참고하기 바랍니다.  

 

Auto Textmining Free│웹페이지 데이터 추출 │워드클라우드 자동 생성과 토픽 모델링 분석

Auto Textmining 무료 도구인 voyant-tools를 활용한 웹페이지 데이터 추출과 이를 활용한 워드클라우드, 토픽 모델링 분석 방법을 정리합니다. 1. voyant-tools, URL 입력 아래 이미지처럼 Add Texts 창에 분석

e-datanews.tistory.com

 

AI 자동 무료 텍스트 마이닝 일본어 사이트 사용법 (1)│ユーザーローカル

무료로 일본어 AI 텍스트 마이닝을 자동으로 구현해 볼 수 있는 대표적인 웹사이트는 User Local(ユーザーローカル)입니다. 최근 User Local(ユーザーローカル)이 여러 가지 기능들을 개선 및 제공하

e-datanews.tistory.com

 

1. voyant tools 실행

우선 아래 이미지를 클릭하여 voyant tools의 웹사이트로 이동합니다. Add Texts 창에 분석할 텍스트 데이터를 붙여 넣기 하거나, 파일을 업로드할 수도 있습니다. 텍스트 데이터 입력이 끝났다면, Reveal 버튼을 클릭하여 텍스트 데이터 분석을 실행합니다. 

voyant tools 메인 화면
voyant tools 메인 화면

 

2. 텍스트 데이터 입력과 분석 결과

2개 이상의 파일을 한 번에 업로드하면 텍스트 마이닝 결과가 자동 실행됩니다. 아래 워드클라우드 등의 이미지는 최근 블록체인과 물류에 관한 37개의 논문 영어 초록을 voyant tools의 파일 업로드로 불러들인 후, 자동 실행된 결과입니다. 

voyant tools 텍스트 마이닝 분석 결과
voyant tools 텍스트 마이닝 분석 결과

 

3. 불용어 처리 순서와 방법 

voyant tools에서 전처리를 실시하는 순서와 방법은 다음과 같습니다. 먼저 워드클라우드 결과 화면 상단의 물음표에 마우스 커서를 올려놓은 후, Define options for this tools 아이콘을 클릭합니다. 그럼 불용어를 처리할 수 있는 Options 팝업창이 뜹니다. stopwords 옆에 Edit List를 클릭하면, 불용어로 추가할 새로운 팝업창이 생성됩니다. 해당 창에 불용어로 처리할 단어를 입력 및 완료하면, 해당 단어가 생략된 새로운 워드 클라우드가 동시에 자동 생성됩니다. 아래 이미지에서는 block을 불용어 처리하였고, 새롭게 생성된 워드클라우드에서는 block이 제거되었음을 확인할 수 있습니다. 혹시 이해가 안되는 분들은 아래 유튜브 실습 영상도 업로드 해두었으니 참고 바랍니다. 

불용어 처리 방법
불용어 처리 방법

 

불용어 입력 완료
불용어 입력 완료

 

4. 실습 영상

아래 영상은 voyant에서 불용어 처리 후, 확인하는 실습 영상입니다. 

voyant tools │ 불용어 전처리 방법 실습 영상

 

5. 정리

텍스트 마이닝 무료 도구인 voyant tools는 다양한 텍스트 데이터 시각화 분석이 가능합니다만, 이번 포스팅에서는 가장 중요한 기초 단계인 데이터 입력 방법과 텍스트 데이터 불용어 처리 방법에 관하여 정리하였습니다. 보다 다양한 분석 방법은 다른 포스팅에서 이어가도록 하겠습니다. 

 

Auto Textmining Free│2개 이상의 PDF 문서 텍스트 추출│네트워크 그래프 자동 생성과 토픽 모델링 분

Auto Textmining 무료 도구인 voyant-tools를 활용한 2개 이상의 PDF 문서의 텍스트 추출과 이를 활용한 네트워크 그래프, 토픽 모델링 분석 방법을 정리합니다. 1. voyant-tools, PDF 문서 업로드 voyant-tools에서

e-datanews.tistory.com

 

도지코인 │NewAPI│R과 Voyant-tools 분석 비교

특정 해외 뉴스 키워드(도지코인)를 활용하여 NewAPI에서 텍스트 데이터를 수집한 후, R과 Voyant-tools를 이용하여 분석 결과를 비교합니다. 2개 이상의 URL을 동시 입력한 후, 텍스트 데이터 자동 추

e-datanews.tistory.com

R을 이용한 한글 텍스트 마이닝 포스팅이 업데이트되었습니다. R 4.3.1 버전 기준하에서 KoNLP설치부터 테스트까지 설명과 실행 R 코드 모두 업로드해두었으니 관심있는 분들은 다음 포스팅도 참고하세요. 

 

R 한글 텍스트 마이닝 │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도분석

지난 포스팅에서 한글 텍스트 마이닝 분석을 위한 KoNLP 설치하는 방법까지 설명하였습니다. 이어서 테스트도 할 겸 엑셀의 텍스트 데이터를 호출하고, 빈도 분석까지 간단히 정리해 보겠습니다.

e-datanews.tistory.com