본문 바로가기

교육

빅카인즈│한글 뉴스 키워드 네트워크 분석 │ KHCoder3

빅 카인즈에서 한글 뉴스 덱스트를 수집한 후, KHCoder3을 활용한 한글 뉴스 키워드 네트워크 분석을 실행해 보겠습니다. 빅 카인즈가 처음인 분들은 이전 포스팅을 참고해 주기 바랍니다. 

 

빅카인즈 AI │AI 신문 뉴스 기사 작성 방법과 예시

한국언론진흥재단의 뉴스빅데이터 서비스인 빅카인즈가 신문 뉴스 기사 작성을 지원하는 실험버전인 생성형 AI 서비스, 빅카인즈 AI를 공개하고 있습니다. 이번 포스팅에서는 빅카인즈에서 소

e-datanews.tistory.com

 

[카드뉴스] 빅카인즈(BIGKinds) 활용방법

이번 포스팅에서는 국내 뉴스빅데이터 분석서비스를 제공하는 빅카인즈(BIGKinds) 활용방법을 소개하고자 합니다. 예제 검색키워드는 중앙아시아 5개국가 중 우리나라 화장품 최대 수입국가 중

e-datanews.tistory.com

R을 이용한 한글 텍스트 마이닝에 관심있는 분들은 다음 포스팅도 참고하기 바랍니다. KoNLP 설치 순서부터 빅카인즈 뉴스 데이터를 이용한 간단한 테스트 내용까지 업데이트하였습니다. 포스팅 하단에 R 실행 코드도 함께 올려두었으니 내려받은 후, 실습하면 됩니다. 

 

R 한글 텍스트 마이닝 │네이버 생성형 AI 큐 국내 보도자료 분석│엑셀 데이터 호출 및 빈도분석

지난 포스팅에서 한글 텍스트 마이닝 분석을 위한 KoNLP 설치하는 방법까지 설명하였습니다. 이어서 테스트도 할 겸 엑셀의 텍스트 데이터를 호출하고, 빈도 분석까지 간단히 정리해 보겠습니다.

e-datanews.tistory.com

 

1. 빅카인즈 뉴스 데이터 수집 및 가공

빅 카인즈에 로그인한 후, 텍스트 마이닝이라는 키워드를 입력하고, 최근 3개월 간 기사 검색을 실행합니다. 기사 검색이 완료되면, 검색된 기사를 내려받습니다.
제공되는 정보가 다양한데요. 그림처럼 날짜(date), 언론사(news), 제목(title), 특성추출(가중치순 상위 50개)(keywords), 본문(description)만 남기고 나머지 칼럼은 삭제하겠습니다. 

빅카인즈에서 텍스트마이닝 뉴스 기사 추출 후, 분석용 데이터 셋 구성
빅카인즈에서 텍스트마이닝 뉴스 기사 추출 후, 분석용 데이터 셋 구성
bigkinds_test.xlsx
0.01MB

 

2. KH Coder3 엑셀 텍스트 데이터 호출, 전처리 

지난 포스팅에서 살펴본 바와 같이 KH Coder3에서 엑셀 텍스트 데이터 호출 방법을 적용하여 수집된 뉴스 데이터를 호출하겠습니다. 키워드 네트워크 분석을 실행할 에정이므로 Target Column 지정은 "keywords"로 하겠습니다. 
PRe-Processing > Run Pre-Processing를 눌러 전처리도 실행합니다. 

 

3. 뉴스 키워드 네트워크 분석 준비 

전처리까지 완료되었다면, Tools > Words > co-occurrence network을 통해 뉴스 키워드 네트워크 분석을 실행하겠습니다. 분석 옵션은 명사와 태그만 선택하고, 그 외 나머지는 아무 조정 없이 그대로 실행시켜 보겠습니다. 

뉴스 키워드 네트워크 분석을 위한 분석 대상 키워드 선정
뉴스 키워드 네트워크 분석을 위한 분석 대상 키워드 선정

 

4. 뉴스 키워드 네트워크 분석 결과 

텍스트마이닝 뉴스 키워드 네트워크 분석 결과는 다음과 같습니다. 크게 5개의 subgraph가 생성되었는데요. 3번째 포스팅에서 살펴본 바와 같이 복합어와 불용어 처리가 필요해 보입니다. 

뉴스 키워드 네트워크 분석 결과 및 복합어, 불용어 확인
뉴스 키워드 네트워크 분석 결과 및 복합어, 불용어 확인

 

5. 복합어, 불용어 추가 전처리 후 뉴스 키워드 네트워크 재 분석

그림처럼 5개의 subgraph 중 와이 02는 와이즈로, 농 04는 농협으로 복합어 처리를 하고, 티 01, 김 01, ㅠ는 불용어 처리를 하겠습니다. 

복합어, 불용어 처리를 위한 문서 내 단어 확인
복합어, 불용어 처리를 위한 문서 내 단어 확인

 

복합어, 불용어 입력
복합어, 불용어 입력


그러면 다음 그림같은 뉴스 키워드 네트워크 재 분석 결과를 확인할 수 있습니다. 우선 기존 5개의 subgraph가 4개로 줄었고, 복합어와 불용어 처리도 잘 수행되었음을 확인할 수 있습니다. 

복합어, 불용어 처리 결과 확인
복합어, 불용어 처리 결과 확인


또한 다음 그림처럼 매개 중심성 분석 결과를 살펴보면, 텍스트 마이닝 뉴스 기사를 연결해 주는 키워드는 "인공 기능 기술"이라는 점을 추가로 확인할 수 있습니다. 

키워드 네트워크 분석결과 : 매개중심성
키워드 네트워크 분석결과 : 매개중심성

 

6. 정리

빅카인즈에서 텍스트 마이닝 뉴스 데이터를 수집한 후, 복합어와 불용어 추가 전처리까지 실행하고, 동시 출현 네트워크 분석 결과를 좀 더 다듬어 보는 연습을 실행해 보았습니다. 특히 매개 중심성 분석 결과를 통해 최근 텍스트 마이닝 뉴스 이슈들을 연결하는 주요 키워드는 "인공 지능 기술"이라는 점도 추가 확인하였습니다. 

 

KH Coder3 대응분석│삼성 현대차 SK그룹의 경영철학 비교 │한글 텍스트 마이닝

KH Coder3을 이용한 한글 텍스트 마이닝 분석 방법 중 대응분석 사용방법에 대하여 정리하겠습니다. 대응분석이란 2개 이상의 명목 척도로 측정된 범주형 변수들 간의 연관성을 분석하고 이를 플

e-datanews.tistory.com

다음 포스팅에서는 KH Coder3 제공하는 텍스트 마이닝 분석 방법 중 대응 분석 사례를 살펴보도록 하겠습니다. 

 

R 한글 텍스트 마이닝 분석 (4) : tidygraph와 ggraph │키워드 네트워크 분석

R을 이용한 한글 텍스트 마이닝 분석 다섯 번째 포스팅 주제는 tidygraph와 ggraph를 이용한 키워드 네트워크 분석입니다. 이전에 활용한 네이버의 생성형 AI 서비스 큐 보도자료를 계속 인용하겠습

e-datanews.tistory.com

R을 이용한 한글 텍스트 마이닝 네번째 포스팅인 Tidygraph와 ggraph 를 이용한 키워드 네크워크 분석이 업데이트 되었습니다. 관심있는 분들은 위의 링크를 참고하기 바랍니다.