본문 바로가기

동시출현네트워크분석

R 한글 텍스트 마이닝 (5) : 단어 문서 행렬 │cast_tdm 함수 │텍스트 네트워크 분석 R을 이용한 한글 텍스트 마이닝 다섯 번째 포스팅은 TDM, cast_tdm 함수를 이용한 단어 문서 행렬의 구성 방법에 관한 R 실습 코드와 설명입니다. 마지막에 단어 문서 행렬 구성 후, qgraph 패키지를 이용한 동시출현네트워크분석(co-occurrence network anlysis)까지 설명하고 마무리하겠습니다. 실습할 데이터는 계속 이어서 네이버 큐 보도자료입니다. 해당 데이터는 두번째 포스팅에 올려두었으니, 참고 바랍니다. 또한 아래 포스팅을 참고하여 KoNLP 패키지 먼저 설치해야 R을 이용한 한글 텍스트 마이닝 분석이 가능합니다. R 한글 텍스트 마이닝 분석 (4) : tidygraph와 ggraph │키워드 네트워크 분석 R을 이용한 한글 텍스트 마이닝 분석 다섯 번째 포스팅 주제는 .. 더보기
해외 뉴스 텍스트 네트워크 분석 │영어 데이터 정제 방법 비건 스킨케어 해외 뉴스 데이터를 NewsAPI를 이용하여 수집 및 저장하고, KHCoder로 호출한 후, 불용어 등 데이터 정제 방법에 관하여 정리합니다. 국제 뉴스 데이터 수집과 분석│News API in R 이번 포스팅에서는 News API( https://newsapi.org/ )를 통해 국제 뉴스 데이터를 수집하기 위한 R 스크립트를 공유하고, 기초적인 텍스트 마이닝 분석을 통해 빈도수 기준 핵심 키워드를 도출하는 실습 e-datanews.tistory.com 1. 비건 스킨케어 해외 뉴스 수집 │KHCoder로 텍스트 데이터 호출 NewsAPI를 이용한 비건 스킨케어 해외 뉴스 데이터를 수집하고, 해당 데이터를 KHCoder로 호출합니다. 수집된 뉴스 데이터는 아래 파일을 이용하였습니다. 실습.. 더보기
비건 기초 화장품 구매 후기 │고객 리뷰 텍스트 마이닝 │ KH Coder3 지금까지 KH Coder3을 이용한 텍스트 마이닝의 다양한 분석 방법에 대하여 정리하였습니다. 이번 포스팅에서는 실제 비건 기초 화장품 고객 구매 후기를 수집하고, KH Coder3에서 제공하는 대응분석, 동시 출현 네트워크 분석을 실시해 보겠습니다. 1. 화장품 구매 후기 분석 사례 화장품 등 소비재 품목을 중심으로 구매 후기를 수집하고, 이를 기초로 마케팅 전략을 수립하는 사례는 다양합니다. 아래 링크는 화장품 품목을 중심으로 다양한 빅데이터 분석 결과를 제공해주고 있습니다. 이번 포스팅에서는 이런 종류의 빅데이터 분석을 시험삼아 해본다고 생각하면 됩니다. [화장품 빅데이터 분석 (52)] 핸드크림 트렌드 분석 [코스인코리아닷컴 이효진 기자] 여름, 겨울 할 것 없이 꾸준히 움직이고 닿는 부위인 손... 더보기
유사도 지수 차이 비교 │ Jaccard │Dice│ Simpson 계수 │KH Coder3 동시출현네트워크분석 KH Coder3가 제공하는 유사도 지수 계산 방법은 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수, 코사인(Cosine), 유클리디안 (Euclidean)이 있습니다. 이들 유사도 지수 계측 방법은 KH Coder3가 제공하는 텍스트 마이닝 분석 방법 중 다차원 척도 법, 계층적 군집분석, 동시 출현 네트워크 분석에 활용되고 있습니다. 이번 포스팅에서는 이 중 계산 방법이 비슷한 자카드(Jaccard), 다이스(Dice), 심슨(Simpson) 지수에 관해 정리하고, 동시 출현 네트워크 분석에 각각 적용하여 각 유사도 지수의 차이점을 살펴보겠습니다. 1. 자카드(Jaccard) 지수 계산식은 다음과 같습니다. 즉, 「단어 X와 단어 Y가 동시에 출현한 수」 ÷ 「단어 X와 단어.. 더보기
빅카인즈│한글 뉴스 키워드 네트워크 분석 │ KHCoder3 빅 카인즈에서 한글 뉴스 덱스트를 수집한 후, KHCoder3을 활용한 한글 뉴스 키워드 네트워크 분석을 실행해 보겠습니다. 빅 카인즈가 처음인 분들은 이전 포스팅을 참고해 주기 바랍니다.  빅카인즈 AI │AI 신문 뉴스 기사 작성 방법과 예시한국언론진흥재단의 뉴스빅데이터 서비스인 빅카인즈가 신문 뉴스 기사 작성을 지원하는 실험버전인 생성형 AI 서비스, 빅카인즈 AI를 공개하고 있습니다. 이번 포스팅에서는 빅카인즈에서 소e-datanews.tistory.com [카드뉴스] 빅카인즈(BIGKinds) 활용방법이번 포스팅에서는 국내 뉴스빅데이터 분석서비스를 제공하는 빅카인즈(BIGKinds) 활용방법을 소개하고자 합니다. 예제 검색키워드는 중앙아시아 5개국가 중 우리나라 화장품 최대 수입국가 중e-dat.. 더보기
KH Coder3 복합어와 불용어 처리 방법 │한글 텍스트 마이닝 KH Coder3로 텍스트 마이닝을 시도한 후, 추가적인 전처리가 필요할 수 있습니다. KH Coder3에서는 복합어와 불용어 처리 가능이 내장되어 있습니다. 해당 기능을 이용하여 추가적인 전처리가 가능합니다. 지난 포스팅에서는 다루었던 예제를 이용하여 각 기능 사용방법을 설명하겠습니다. R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리 이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에 e-datanews.tistory.com 1. 동시출현네트워크 분석 결과 확인 지난 포스팅에서 설명했던 3가지 텍스트 파일을 다시 이용하겠습니다. 다음 그.. 더보기
KH Coder3 텍스트 데이터 호출 │전처리 실행 │형태소 품사 분석 │동시출현네트워크분석 이번 포스팅에서는 2개 이상의 문서, 텍스트(. txt) 파일의 데이터를 호출한 후, 전처리 실행 방법, 형태소 및 품사 분석, 동시 출현 네트워크 분석을 간단히 구현해 보겠습니다. 1. 두 개 이상의 문서 준비 KHCoder3 폴더내 test라는 새로운 폴더를 만들고, 아래 test01, test02, test03 파일을 test 폴더에 각각 저장합니다. text01, 인하대학교 국제통상학과에 재학중입니다. text02, 인하대학교 공학대학원에 재학중입니다. text03, 인하대학교는 인천에 있습니다. 2. 텍스트 데이터 호출하기 KH Coder3를 실행시킨 후, 상단 메뉴에서 project > import > Multiple texts in a fold를 클릭합니다. 새 창이 뜨면 browse 버튼을.. 더보기
KHcoder│한글 복합어 불용어 처리 방법 │빅카인즈 이번 포스팅에서는 KHcoder를 이용하여 한글 텍스트 마이닝을 실행할 때, 복합어와 불용어 처리 방법에 관하여 정리합니다. 이를 위해 빅 카인즈에서 비건 화장품이라는 키워드로 뉴스 데이터를 검색 및 수집한 후, 각 뉴스들의 헤드라인을 활용해보겠습니다. 텍스트 마이닝에서 복합어 혹은 불용어 처리는 분석 결과를 보다 명확히 하기 위한 필수 절차라는 점을 다시 한번 강조합니다. 빅카인즈에서 비건 화장품 뉴스 데이터 호출 한국 언론진흥재단에서 운영하는 빅 카인즈의 뉴스 데이터 중 비건 화장품 키워드를 활용하여 KHcoder 기반 한글 텍스트 마이닝을 실행해보겠습니다. 아래 업로드한 파일은 빅 카인즈에서 출력한 비건 화장품 뉴스데이터입니다. 이번 포스팅을 함께 따라서 하실 분들은 아래 파일을 각자 내려받기 바랍.. 더보기
키워드 네트워크 분석 방법 │한글 텍스트마이닝│KHcoder 활용 논문 작성 방법 중의 하나로 많이 사용되는 한글 키워드 네트워크 분석 방법에 관하여 정리합니다. 예제 키워드는 인플루언서이며, 해당 키워드를 이용하여 국내 연구를 정리해보겠습니다. 분석도구는 지난 일본어 텍스트 마이닝에 이어 이번에도 KHcoder를 사용하며 코딩하지 않고 한글 텍스트 마이닝을 진행해보겠습니다. 텍스트 마이닝 토픽분석 키워드 네트워크 분석 │국내 연구 동향 │2002년-2022년 한국 학술지 인용 색인에서 텍스트 마이닝, 토픽분석 및 키워드 네트워크 분석 이라는 검색 결과를 활용하여 국내 텍스트 마이닝 관련 연구 동향을 정리해 보았습니다. 국내 텍스트 마이닝 연구 e-datanews.tistory.com 1. 학술지 키워드 수집 학술지 키워드 관련 국내 연구 동향을 검토하기 위해서는 우선.. 더보기