코딩하지 않고 자동으로 텍스트 마이닝 실행할 수 있는 무료 도구인 voyant tools의 데이터 입력과 불용어 처리방법에 관하여 정리합니다. voyant tools는 오픈 소스 웹 기반의 텍스트 마이닝 도구로서 Stéfan Sinclair( McGill ) Geoffrey Rockwell( University of Alberta )에 의해 개발되었습니다. 관련 설명은 위키 문서에도 있으니, 보다 자세한 설명은 위키 문서를 참고하기 바랍니다.
1. voyant tools 실행
우선 아래 이미지를 클릭하여 voyant tools의 웹사이트로 이동합니다. Add Texts 창에 분석할 텍스트 데이터를 붙여 넣기 하거나, 파일을 업로드할 수도 있습니다. 텍스트 데이터 입력이 끝났다면, Reveal 버튼을 클릭하여 텍스트 데이터 분석을 실행합니다.
2. 텍스트 데이터 입력과 분석 결과
2개 이상의 파일을 한 번에 업로드하면 텍스트 마이닝 결과가 자동 실행됩니다. 아래 워드클라우드 등의 이미지는 최근 블록체인과 물류에 관한 37개의 논문 영어 초록을 voyant tools의 파일 업로드로 불러들인 후, 자동 실행된 결과입니다.
3. 불용어 처리 순서와 방법
voyant tools에서 전처리를 실시하는 순서와 방법은 다음과 같습니다. 먼저 워드클라우드 결과 화면 상단의 물음표에 마우스 커서를 올려놓은 후, Define options for this tools 아이콘을 클릭합니다. 그럼 불용어를 처리할 수 있는 Options 팝업창이 뜹니다. stopwords 옆에 Edit List를 클릭하면, 불용어로 추가할 새로운 팝업창이 생성됩니다. 해당 창에 불용어로 처리할 단어를 입력 및 완료하면, 해당 단어가 생략된 새로운 워드 클라우드가 동시에 자동 생성됩니다. 아래 이미지에서는 block을 불용어 처리하였고, 새롭게 생성된 워드클라우드에서는 block이 제거되었음을 확인할 수 있습니다. 혹시 이해가 안되는 분들은 아래 유튜브 실습 영상도 업로드 해두었으니 참고 바랍니다.
4. 실습 영상
아래 영상은 voyant에서 불용어 처리 후, 확인하는 실습 영상입니다.
5. 정리
텍스트 마이닝 무료 도구인 voyant tools는 다양한 텍스트 데이터 시각화 분석이 가능합니다만, 이번 포스팅에서는 가장 중요한 기초 단계인 데이터 입력 방법과 텍스트 데이터 불용어 처리 방법에 관하여 정리하였습니다. 보다 다양한 분석 방법은 다른 포스팅에서 이어가도록 하겠습니다.
R을 이용한 한글 텍스트 마이닝 포스팅이 업데이트되었습니다. R 4.3.1 버전 기준하에서 KoNLP설치부터 테스트까지 설명과 실행 R 코드 모두 업로드해두었으니 관심있는 분들은 다음 포스팅도 참고하세요.
'교육' 카테고리의 다른 글
KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석 (0) | 2022.12.20 |
---|---|
한글 텍스트 마이닝│KH Coder3 내려받고 설치하기 │Window 기준 (0) | 2022.12.19 |
한 살 남자 여자 일본 장난감 선물 리뷰 텍스트마이닝│야후재팬 쇼핑 랭킹 100 (0) | 2022.06.29 |
KHcoder│한글 복합어 불용어 처리 방법 │빅카인즈 (0) | 2022.06.28 |
R 아마존 고객 리뷰 N-gram 분석 │상관 관계 분석 │Read reviews that mention (0) | 2022.06.24 |