본문 바로가기

교육

텍스트 마이닝 사이트 │ Auto Textmining Free│2개 이상의 PDF 문서 텍스트 추출│네트워크 그래프 자동 생성과 토픽 모델링 분석

Auto Textmining 무료 도구인 voyant-tools를 활용한 2개 이상의 PDF 문서의 텍스트 추출과 이를 활용한 네트워크 그래프, 토픽 모델링 분석 방법을 정리합니다.

 

Auto Textmining Free│웹페이지 데이터 추출 │워드클라우드 자동 생성과 토픽 모델링 분석

Auto Textmining 무료 도구인 voyant-tools를 활용한 웹페이지 데이터 추출과 이를 활용한 워드클라우드, 토픽 모델링 분석 방법을 정리합니다. 1. voyant-tools, URL 입력 아래 이미지처럼 Add Texts 창에 분석

e-datanews.tistory.com

 

PDF 문서 자동 번역 및 요약 간단 방법│ChatPDF │Bing 검색

이번 포스팅은 ChatPDF와 Bing을 이용하여 간단히 그것도 무료로 PDF 문서 자동 번역 및 요약하는 방법을 비교 정리하겠습니다. 국내외 문서를 많이 읽는 분들에게는 괜찮은 팁이니 참고하기 바랍니

e-datanews.tistory.com

 

1. voyant-tools, PDF 문서 업로드  

voyant-tools에서 Upload를 클릭하여 Local 컴퓨터 내 분석하고자 하는 PDF 문서들을 모두 호출합니다. 그러면 문서들을 호출함과 동시에 말뭉치를 자동으로 생성합니다. 

voyant-tools, PDF 문서들 업로드
voyant-tools, PDF 문서들 업로드

 

voyant-tools, 텍스트 마이닝 자동 분석 결과 

분석 결과는 아래 이미지와 같습니다. 예제로 사용하고 있는 PDF 문서들은 2018년부터 2022년까지 일본의 농림수산성 백서들입니다. 맨 오른쪽 분석 결과에서 확인할 수 있는 바와 같이 특정 단어들의 연도별 트렌드를 관찰할 수도 있습니다. 실제 구현할 때는 불용어 등 추가적인 전처리 후, 보다 면밀하게 검토하기 바랍니다. 

voyant-tools, 텍스트 마이닝 자동 분석 결과
voyant-tools, 텍스트 마이닝 자동 분석 결과

 

3. 불용어 등 전처리 방법 

지난 포스팅에서도 다룬 바 있습니다. 불용어 처리 등 추가적인 전처리가 반드시 필요합니다. 아래 링크를 통해 voyant-tools에서 전처리 하는 방법을 다시 한번 확인하기 바랍니다. 

 

텍스트 마이닝 무료 도구 │voyant tools│데이터 입력과 불용어 처리 방법

코딩하지 않고 텍스트 마이닝 실행할 수 있는 무료 도구인 voyant tools의 데이터 입력과 불용어 처리방법에 관하여 정리합니다. voyant tools는 오픈 소스 웹 기반의 텍스트 마이닝 도구로서 Stéfan Sinc

e-datanews.tistory.com

 

4. 네트워크 그래프 분석 

맨 왼쪽 상단 메뉴 중 링크를 클릭하면, 네트워크 분석을 자동으로 구현할 수 있습니다. 관심 있는 특정 단어가 어떤 단어들과 관계있는지 확인이 가능합니다. 즉 아래 이미지처럼 특정 단어인 safety와 연관된 단어가 무엇인지 확인할 수 있습니다. 그 외 토픽 모델링 분석은 지난 포스팅을 참고하기 바랍니다.

특정 단어의 연도별 트렌드 분석 결과
특정 단어의 연도별 트렌드 분석 결과
특정 단어(safety)의 네트워크 그래프 자동 생성
특정 단어(safety)의 네트워크 그래프 자동 생성

 

R 한글 텍스트 마이닝 분석 (4) : tidygraph와 ggraph │키워드 네트워크 분석

R을 이용한 한글 텍스트 마이닝 분석 다섯 번째 포스팅 주제는 tidygraph와 ggraph를 이용한 키워드 네트워크 분석입니다. 이전에 활용한 네이버의 생성형 AI 서비스 큐 보도자료를 계속 인용하겠습

e-datanews.tistory.com

 

5. 실습 영상 

지금까지 설명한 내용들을 실습한 영상은 다음과 같습니다. 참고하여 실습해 보기 바랍니다.

Auto Textmining Free│2개 이상의 PDF 문서 텍스트 추출│네트워크 그래프 자동 생성과 토픽 모델링 분석

 

6. 정리 

Auto Textmining 무료 도구인 voyant-tools을 활용하여 2개 이상의 PDF 문서를 동시 호출 및 데이터를 자동 추출하고, 이를 기초로 네트워크 그래프, 토픽 모델링까지 자동으로 구현해 보았습니다. 추가적인 전처리 후, 분석 결과를 보다 명확히 구현해 보기 바랍니다. 

 

도지코인 │NewsAPI│R과 Voyant-tools 분석 비교

특정 해외 뉴스 키워드(도지코인)를 활용하여 News API에서 텍스트 데이터를 수집한 후, R과 Voyant-tools를 이용하여 분석 결과를 비교합니다. 2개 이상의 URL을 동시 입력한 후, 텍스트 데이터 자동 추

e-datanews.tistory.com

 

ChatDOC 사용법 │PDF, 워드 문서 자동 번역 및 요약

ChatDOC 사용법을 정리하겠습니다. 미리 말씀드리면, 매우 간단합니다. 서비스 가입 후, 자동 번역 및 요약할 문서를 ChatDOC에 업로드하고, ChatGPT처럼 대화 형식으로 자동 번역과 요약을 지시하면

e-datanews.tistory.com