본문 바로가기

교육

텍스트 마이닝 사이트│웹페이지 데이터 추출 │워드클라우드 자동 생성과 토픽 모델링 분석

Auto Textmining 무료 도구인 voyant-tools를 활용한 웹페이지 데이터 추출과 이를 활용한 워드클라우드, 토픽 모델링 분석 방법을 정리합니다.

 

Auto Textmining Free│2개 이상의 PDF 문서 텍스트 추출│네트워크 그래프 자동 생성과 토픽 모델링 분

Auto Textmining 무료 도구인 voyant-tools를 활용한 2개 이상의 PDF 문서의 텍스트 추출과 이를 활용한 네트워크 그래프, 토픽 모델링 분석 방법을 정리합니다. 1. voyant-tools, PDF 문서 업로드 voyant-tools에서

e-datanews.tistory.com

 

ChatDOC 사용법 │PDF, 워드 문서 자동 번역 및 요약

ChatDOC 사용법을 정리하겠습니다. 미리 말씀드리면, 매우 간단합니다. 서비스 가입 후, 자동 번역 및 요약할 문서를 ChatDOC에 업로드하고, ChatGPT처럼 대화 형식으로 자동 번역과 요약을 지시하면

e-datanews.tistory.com

 

PDF 문서 자동 번역 및 요약 간단 방법│ChatPDF │Bing 검색

이번 포스팅은 ChatPDF와 Bing을 이용하여 간단히 그것도 무료로 PDF 문서 자동 번역 및 요약하는 방법을 비교 정리하겠습니다. 국내외 문서를 많이 읽는 분들에게는 괜찮은 팁이니 참고하기 바랍니

e-datanews.tistory.com

 

PDF2GPT │영어 일본어 pdf 문서 요약 번역

이번 포스팅은 영어, 일본어 PDF 문서 번역 및 요약 서비스인 PDF2GPT (바로가기 클릭!)사용법을 정리하여 공유합니다. 사용 방법은 매우 직관적이며, 단순하여 빠르게 테스트해 볼 수 있습니다. 서

e-datanews.tistory.com

 

1. voyant-tools, URL 입력 

아래 이미지처럼 Add Texts 창에 분석하고자 하는 URL을 복사한 후, 붙여 넣기 합니다. 그리고 Reveal을 클릭하면, 자동으로 텍스트 마이닝 분석 결과가 구현됩니다. 참고 예제로 사용하고 있는 웹페이지는 미국 무역대표부의 USMCA의 디지털무역 챕터입니다. 

voyant-tools, URL 입력
voyant-tools, URL 입력

 

2. voyant-tools, 텍스트 마이닝 자동 분석 결과 

USMCA의 Digital Trade 챕터의 voyant-tools을 이용한 텍스트 마이닝 분석 결과는 다음 이미지와 같습니다. 

voyant-tools을 이용한 Auto Textmining 분석 결과
voyant-tools을 이용한 Auto Textmining 분석 결과

 

3. 불용어 등 전처리 방법 

지난 포스팅에서 다룬 바 있습니다만, 불용어 처리 등 추가적인 전처리가 필요합니다. 아래 링크를 통해 voyant-tools에서 전처리 하는 방법을 확인하기 바랍니다.

 

텍스트 마이닝 무료 도구 │voyant tools│데이터 입력과 불용어 처리 방법

코딩하지 않고 텍스트 마이닝 실행할 수 있는 무료 도구인 voyant tools의 데이터 입력과 불용어 처리방법에 관하여 정리합니다. voyant tools는 오픈 소스 웹 기반의 텍스트 마이닝 도구로서 Stéfan Sinc

e-datanews.tistory.com

 

4. 토픽 모델링 분석 결과 확인

아래 이미지처럼 윈도우 창 같은 아이콘을 클릭한 후, Corpus 하위 메뉴 중 Topic을 선택합니다. 

토픽 모델링 분석 선택
토픽 모델링 분석 선택

 

그럼 다음 이미지처럼 토픽 모델링 분석 결과가 자동으로 생성됩니다. 영상에서도 설명하고 있습니다. 토픽 수뿐만 아니라 각 토픽에 포함될 단어 수도 마우스 클릭으로 자동 조절 할 수 있으니 보다 자세한 방법은 다음 영상을 참고하기 바랍니다.

토픽 모델링 분석 결과 │문서 내 토픽 별 비중
토픽 모델링 분석 결과 │문서 내 토픽 별 비중

 

5. 실습 영상

지금까지 설명한 내용들을 실습한 영상은 다음과 같습니다. 참고하여 실습해 보기 바랍니다. 

Auto Textmining│웹페이지 데이터 추출 │워드클라우드 자동 생성과 토픽 모델링 분석 방법 
 

댓글 분석 │LDA 토픽 모델링 │R 한글 텍스트 마이닝

지난 포스팅에서는 어린이 자외선 차단제 댓글들을 이용하여 품사분석, 전처리 그리고 빈도분석까지 실행해 보았습니다. 이번 포스팅에서는 이어서 잠재 디리클레 할당(Latent Dirichlet Allocation,

e-datanews.tistory.com

 

6. 정리 

Auto Textmining 무료 도구인 voyant-tools을 활용하여 웹페이지 데이터를 자동으로 추출하고, 이를 기초로 워드클라우드, 토픽 모델링까지 자동으로 구현해 보았습니다. 추가적인 전처리를 통해 데이터 시각화 결과 등 보다 명확한 결과가 얻어보기 바랍니다.