이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다.
1. 두 개 이상의 문서 준비
KHCoder3 폴더내 test라는 새로운 폴더를 만들고, 아래 test01, test02, test03 파일을 test 폴더에 각각 저장합니다.
text01, 인하대학교 국제통상학과에 재학중입니다.
text02, 인하대학교 공학대학원에 재학중입니다.
text03, 인하대학교는 인천에 있습니다.
2. 텍스트 데이터 호출하기
KH Coder3를 실행시킨 후, 상단 메뉴에서 project > import > Multiple texts in a fold를 클릭합니다.
새 창이 뜨면 browse 버튼을 클릭하여 분석할 데이터가 모여있는 폴더를 지정합니다.
분석 폴더가 지정되었다면, Encoding of files에서 Unicode(UTF-8)로 지정한 후, Language는 Korean, 형태소 분석을 위한 사전은 MeCab & HanDic으로 합니다. 여기까지 완료되었다면, OK를 눌러 분석 옵션을 저장합니다.
3. 전처리 실행
KH Coder3 메뉴 중 PRe-Processing > Run pre-processing 메뉴를 클릭하면, 품사분석까지 자동 실행됩니다.
4. 빈도 분석 결과 확인
KH Coder3 메뉴 중 Tools > Words > Frequency List 메뉴를 클릭하여 빈도, 형태소 및 품사분석품사 분석 결과를 확인합니다. 텍스트 데이터의 추가 정제 절차가 필요한지 확인해야 합니다만, 이번 포스팅에서는 생략하겠습니다. 그림 하단에 excel을 클릭하면 품사 분석 결과까지 내려받을 수 있으니 참고 바랍니다.
5. 동시출현네트워크 분석 결과 확인
동시출현네트워크 분석 결과를 확인하겠습니다. Tools > Words > Co-occurrence networks 메뉴를 클릭합니다. 동시 출현 네트워크 분석을 위한 옵션 지정 새창이 뜹니다.
옵션 지정 새창에서 왼쪽의 빈도를 1로 하고, 명사(Noun)만 선택해보겠습니다. 오른쪽의 분석 옵션은 다음 포스팅에서 설명하기로 하고 이번 포스팅에서는 생략하겠습니다.
여기까지 완료되었다면, ok 버튼을 눌러 실행하면, 그림과 같은 동시출현네트워크분석결과를 얻을 수 있습니다.
특히 분석결과에서 특정 단어를 클릭하면 어떤 문서에서 해당 단어가 출현했는지 확인할 수 있어 매우 편리합니다.
또한 KH Coder3는 동시 출현 네트워크 분석방법에 3가지 옵션을 제공합니다. 이 중 아래 그림은 매개 중심성 분석 결과를 구현한 것으로 재학이라는 단어의 매개 중심성이 높은 것으로 나타났습니다.
6. 정리
이번 포스팅에서는 2개 이상의 문서를 동시에 호출하는 방법, 전처리, 간단한 빈도분석 및 동시 출현 네트워크 분석을 실행해보았습니다.
다음 포스팅에서 추가적인 전처리를 위한 복합어와 불용어 처리 방법에 대하여 정리하겠습니다.
'교육' 카테고리의 다른 글
엑셀 CSV 파일 호출 │ KH Coder3 │ 한글 텍스트 마이닝 (0) | 2022.12.22 |
---|---|
KH Coder3 복합어와 불용어 처리 방법 │한글 텍스트 마이닝 (0) | 2022.12.21 |
한글 텍스트 마이닝│KH Coder3 내려받고 설치하기 │Window 기준 (0) | 2022.12.19 |
텍스트 마이닝 무료 도구 │voyant tools│데이터 입력과 불용어 처리 방법 (0) | 2022.07.04 |
한 살 남자 여자 일본 장난감 선물 리뷰 텍스트마이닝│야후재팬 쇼핑 랭킹 100 (0) | 2022.06.29 |