빅 카인즈에서 한글 뉴스 덱스트를 수집한 후, KHCoder3을 활용한 한글 뉴스 키워드 네트워크 분석을 실행해 보겠습니다. 빅 카인즈가 처음인 분들은 이전 포스팅을 참고해 주기 바랍니다.
R을 이용한 한글 텍스트 마이닝에 관심있는 분들은 다음 포스팅도 참고하기 바랍니다. KoNLP 설치 순서부터 빅카인즈 뉴스 데이터를 이용한 간단한 테스트 내용까지 업데이트하였습니다. 포스팅 하단에 R 실행 코드도 함께 올려두었으니 내려받은 후, 실습하면 됩니다.
1. 빅카인즈 뉴스 데이터 수집 및 가공
빅 카인즈에 로그인한 후, 텍스트 마이닝이라는 키워드를 입력하고, 최근 3개월 간 기사 검색을 실행합니다. 기사 검색이 완료되면, 검색된 기사를 내려받습니다.
제공되는 정보가 다양한데요. 그림처럼 날짜(date), 언론사(news), 제목(title), 특성추출(가중치순 상위 50개)(keywords), 본문(description)만 남기고 나머지 칼럼은 삭제하겠습니다.
2. KH Coder3 엑셀 텍스트 데이터 호출, 전처리
지난 포스팅에서 살펴본 바와 같이 KH Coder3에서 엑셀 텍스트 데이터 호출 방법을 적용하여 수집된 뉴스 데이터를 호출하겠습니다. 키워드 네트워크 분석을 실행할 에정이므로 Target Column 지정은 "keywords"로 하겠습니다.
PRe-Processing > Run Pre-Processing를 눌러 전처리도 실행합니다.
3. 뉴스 키워드 네트워크 분석 준비
전처리까지 완료되었다면, Tools > Words > co-occurrence network을 통해 뉴스 키워드 네트워크 분석을 실행하겠습니다. 분석 옵션은 명사와 태그만 선택하고, 그 외 나머지는 아무 조정 없이 그대로 실행시켜 보겠습니다.
4. 뉴스 키워드 네트워크 분석 결과
텍스트마이닝 뉴스 키워드 네트워크 분석 결과는 다음과 같습니다. 크게 5개의 subgraph가 생성되었는데요. 3번째 포스팅에서 살펴본 바와 같이 복합어와 불용어 처리가 필요해 보입니다.
5. 복합어, 불용어 추가 전처리 후 뉴스 키워드 네트워크 재 분석
그림처럼 5개의 subgraph 중 와이 02는 와이즈로, 농 04는 농협으로 복합어 처리를 하고, 티 01, 김 01, ㅠ는 불용어 처리를 하겠습니다.
그러면 다음 그림같은 뉴스 키워드 네트워크 재 분석 결과를 확인할 수 있습니다. 우선 기존 5개의 subgraph가 4개로 줄었고, 복합어와 불용어 처리도 잘 수행되었음을 확인할 수 있습니다.
또한 다음 그림처럼 매개 중심성 분석 결과를 살펴보면, 텍스트 마이닝 뉴스 기사를 연결해 주는 키워드는 "인공 기능 기술"이라는 점을 추가로 확인할 수 있습니다.
6. 정리
빅카인즈에서 텍스트 마이닝 뉴스 데이터를 수집한 후, 복합어와 불용어 추가 전처리까지 실행하고, 동시 출현 네트워크 분석 결과를 좀 더 다듬어 보는 연습을 실행해 보았습니다. 특히 매개 중심성 분석 결과를 통해 최근 텍스트 마이닝 뉴스 이슈들을 연결하는 주요 키워드는 "인공 지능 기술"이라는 점도 추가 확인하였습니다.
다음 포스팅에서는 KH Coder3 제공하는 텍스트 마이닝 분석 방법 중 대응 분석 사례를 살펴보도록 하겠습니다.
R을 이용한 한글 텍스트 마이닝 네번째 포스팅인 Tidygraph와 ggraph 를 이용한 키워드 네크워크 분석이 업데이트 되었습니다. 관심있는 분들은 위의 링크를 참고하기 바랍니다.
'교육' 카테고리의 다른 글
계층적 군집분석 │ 와드(Ward) │ 유클리디안 거리 (0) | 2022.12.27 |
---|---|
KH Coder3 대응분석│삼성 현대차 SK그룹의 경영철학 비교 │한글 텍스트 마이닝 (0) | 2022.12.26 |
엑셀 CSV 파일 호출 │ KH Coder3 │ 한글 텍스트 마이닝 (0) | 2022.12.22 |
KH Coder3 복합어와 불용어 처리 방법 │한글 텍스트 마이닝 (0) | 2022.12.21 |
KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석 (0) | 2022.12.20 |