Auto Textmining 무료 도구인 voyant-tools를 활용한 2개 이상의 PDF 문서의 텍스트 추출과 이를 활용한 네트워크 그래프, 토픽 모델링 분석 방법을 정리합니다.
1. voyant-tools, PDF 문서 업로드
voyant-tools에서 Upload를 클릭하여 Local 컴퓨터 내 분석하고자 하는 PDF 문서들을 모두 호출합니다. 그러면 문서들을 호출함과 동시에 말뭉치를 자동으로 생성합니다.
voyant-tools, 텍스트 마이닝 자동 분석 결과
분석 결과는 아래 이미지와 같습니다. 예제로 사용하고 있는 PDF 문서들은 2018년부터 2022년까지 일본의 농림수산성 백서들입니다. 맨 오른쪽 분석 결과에서 확인할 수 있는 바와 같이 특정 단어들의 연도별 트렌드를 관찰할 수도 있습니다. 실제 구현할 때는 불용어 등 추가적인 전처리 후, 보다 면밀하게 검토하기 바랍니다.
3. 불용어 등 전처리 방법
지난 포스팅에서도 다룬 바 있습니다. 불용어 처리 등 추가적인 전처리가 반드시 필요합니다. 아래 링크를 통해 voyant-tools에서 전처리 하는 방법을 다시 한번 확인하기 바랍니다.
4. 네트워크 그래프 분석
맨 왼쪽 상단 메뉴 중 링크를 클릭하면, 네트워크 분석을 자동으로 구현할 수 있습니다. 관심 있는 특정 단어가 어떤 단어들과 관계있는지 확인이 가능합니다. 즉 아래 이미지처럼 특정 단어인 safety와 연관된 단어가 무엇인지 확인할 수 있습니다. 그 외 토픽 모델링 분석은 지난 포스팅을 참고하기 바랍니다.
5. 실습 영상
지금까지 설명한 내용들을 실습한 영상은 다음과 같습니다. 참고하여 실습해 보기 바랍니다.
6. 정리
Auto Textmining 무료 도구인 voyant-tools을 활용하여 2개 이상의 PDF 문서를 동시 호출 및 데이터를 자동 추출하고, 이를 기초로 네트워크 그래프, 토픽 모델링까지 자동으로 구현해 보았습니다. 추가적인 전처리 후, 분석 결과를 보다 명확히 구현해 보기 바랍니다.
'교육' 카테고리의 다른 글
무료 킥오프 프로젝트 범위 설명서 PPT 템플릿 공유 │SlideModel (0) | 2023.06.02 |
---|---|
도지코인 │NewsAPI│R과 Voyant-tools 분석 비교 (0) | 2023.05.30 |
텍스트 마이닝 사이트│웹페이지 데이터 추출 │워드클라우드 자동 생성과 토픽 모델링 분석 (2) | 2023.05.29 |
GPT-4 │ABM을 위한 ChatGPT 활용 꿀팁을 말하다 (0) | 2023.05.04 |
GPT-4 꿀팁 │ Account-Based Marketing(ABM) 개념과 단계 별 실행 사례 (0) | 2023.05.03 |