Auto Textmining 무료 도구인 voyant-tools를 활용한 웹페이지 데이터 추출과 이를 활용한 워드클라우드, 토픽 모델링 분석 방법을 정리합니다.
1. voyant-tools, URL 입력
아래 이미지처럼 Add Texts 창에 분석하고자 하는 URL을 복사한 후, 붙여 넣기 합니다. 그리고 Reveal을 클릭하면, 자동으로 텍스트 마이닝 분석 결과가 구현됩니다. 참고 예제로 사용하고 있는 웹페이지는 미국 무역대표부의 USMCA의 디지털무역 챕터입니다.
2. voyant-tools, 텍스트 마이닝 자동 분석 결과
USMCA의 Digital Trade 챕터의 voyant-tools을 이용한 텍스트 마이닝 분석 결과는 다음 이미지와 같습니다.
3. 불용어 등 전처리 방법
지난 포스팅에서 다룬 바 있습니다만, 불용어 처리 등 추가적인 전처리가 필요합니다. 아래 링크를 통해 voyant-tools에서 전처리 하는 방법을 확인하기 바랍니다.
4. 토픽 모델링 분석 결과 확인
아래 이미지처럼 윈도우 창 같은 아이콘을 클릭한 후, Corpus 하위 메뉴 중 Topic을 선택합니다.
그럼 다음 이미지처럼 토픽 모델링 분석 결과가 자동으로 생성됩니다. 영상에서도 설명하고 있습니다. 토픽 수뿐만 아니라 각 토픽에 포함될 단어 수도 마우스 클릭으로 자동 조절 할 수 있으니 보다 자세한 방법은 다음 영상을 참고하기 바랍니다.
5. 실습 영상
지금까지 설명한 내용들을 실습한 영상은 다음과 같습니다. 참고하여 실습해 보기 바랍니다.
6. 정리
Auto Textmining 무료 도구인 voyant-tools을 활용하여 웹페이지 데이터를 자동으로 추출하고, 이를 기초로 워드클라우드, 토픽 모델링까지 자동으로 구현해 보았습니다. 추가적인 전처리를 통해 데이터 시각화 결과 등 보다 명확한 결과가 얻어보기 바랍니다.
'교육' 카테고리의 다른 글
도지코인 │NewsAPI│R과 Voyant-tools 분석 비교 (0) | 2023.05.30 |
---|---|
텍스트 마이닝 사이트 │ Auto Textmining Free│2개 이상의 PDF 문서 텍스트 추출│네트워크 그래프 자동 생성과 토픽 모델링 분석 (0) | 2023.05.29 |
GPT-4 │ABM을 위한 ChatGPT 활용 꿀팁을 말하다 (0) | 2023.05.04 |
GPT-4 꿀팁 │ Account-Based Marketing(ABM) 개념과 단계 별 실행 사례 (0) | 2023.05.03 |
가장 인기 있는 테드 (TED) 역대 강연 │유튜브 조회수 기준 (0) | 2023.04.19 |