본문 바로가기

교육

KH Coder3 복합어와 불용어 처리 방법 │한글 텍스트 마이닝

KH Coder3로 텍스트 마이닝을 시도한 후, 추가적인 전처리가 필요할 수 있습니다. KH Coder3에서는 복합어와 불용어 처리 가능이 내장되어 있습니다. 해당 기능을 이용하여 추가적인 전처리가 가능합니다. 지난 포스팅에서는 다루었던 예제를 이용하여 각 기능 사용방법을 설명하겠습니다. 

 

R 한글 텍스트 마이닝 분석 (2) │품사 분석과 불용어 추가 전처리

이번 포스팅은 SimplePos09 함수를 이용하여 명사를 추출하고, 추가적인 불용어 처리 방법을 정리합니다. 분석에 활용할 텍스트 데이터 지난 포스팅에서 사용했던 네이버의 생성형 AI 서비스 큐에

e-datanews.tistory.com

 

1. 동시출현네트워크 분석 결과 확인 

지난 포스팅에서 설명했던 3가지 텍스트 파일을 다시 이용하겠습니다. 다음 그림은 1회 이상 출현한 단어들을 모두 활용한 동시 출현 네트워크 분석 결과입니다. 

동시출현네트워크분석 결과 확인
동시출현네트워크분석 결과 확인


분석결과에 따르면, "국제 02-통상 02-학과 01"이라는 서브그룹과 "공학 01-대학원-재학 02"라는 서브그룹으로 구분 가능합니다. 

 

2. 복합어 처리 방법

복합어라 함은 말 그대로 여러 단어들을 하나의 단어로 병합하는 방법이라 할 수 있습니다. 
가령, 국제02-통상02-학과01 은 "국제통상학과"라는 하나의 단어로 만드는 방법이 복합어 처리입니다. 

 

3. 불용어 처리 방법

불용어라 함은 말 그대로 사용하지 않는 단어라는 의미이고, 분석 결과에서 제외되는 단어라고 할 수 있습니다. 
가령, 분석 결과 중 인천이라는 단어가 있는데요. 해당 단어를 불용어 처리해보겠습니다. 분석 기능을 설명하기 위하여 불용어로 처리합니다만, 실제로 이를 적용할 때는 분석 결과에 크게 달라질 수도 있으므로 상당한 주의를 요합니다

 

4. KH Coder3의 복합어 불용어 처리 방법

KH Coder3 메뉴에서 PRe-Processing > Select Words to Analyze 를 선택합니다. 

Select Words to Analyze 선택
Select Words to Analyze 선택


그럼 다음 복합어와 불용어를 처리할 수 있는 새 창이 뜹니다. 그림에서 보는 바와 같이 froce pick up이 복합어를, force ignore가 불용어를 처리하는 입력창입니다. 

복합어와 불용어 입력
복합어와 불용어 입력


입력창의 복합어에는 국제통상학과를, 불용어에는 인천을 각각 입력합니다. 여기서 중요한 점은 해당 단어를 입력한 후에는 반드시 엔터를 쳐서 확인해주어야 한다는 점입니다. 복합어와 불용어 입력이 모두 완료된 후에는 OK를 눌러줍니다. 

 

5. 전처리 재실행(Run Pre-Processing)

모든 입력이 완료된 후에는 반드시 그림처럼 전처리를 재실행해야 합니다.

복합어 및 불용어 입력 후 전처리 재실행
복합어 및 불용어 입력 후 전처리 재실행

 

6. 복합어와 불용어 처리 확인 

전처리 재실행까지 완료된 후에는 다시 KH Coder3 메뉴의 Tools > Words > co-occurrence network를 열어 처리결과를 확인할 수 있습니다. 즉 아래 그림에서 확인할 수 있는 바와 같이 "국제통상학과" 라는 복합어가 새로 생성되었고, "인천"이라는 단어는 불용어 처리되어 분석 결과에서 제거되었습니다. 

복합어와 불용어 처리 결과 확인
복합어와 불용어 처리 결과 확인

 

7. 정리

분석결과를 보다 명확히 하기 위하여 추가적인 전처리 작업이라 할 수 있는 복합어와 불용어 처리는 필수적인 단계입니다. 특히 텍스트 데이터 분석 양이 많아지게 되면, 복합어와 불용어 처리해야 하는 양도 늘어날 수 있다는 점을 상긱하면서 이번 포스팅은 마무리하겠습니다. 

 

엑셀 CSV 파일 호출 │ KH Coder3 │ 한글 텍스트 마이닝

KH Coder3에서 엑셀 혹은 csv(comma-separated values) 파일을 호출한 후, 텍스트 마이닝을 실행하겠습니다. 우선 지난 포스팅에서 사용했던 텍스트 파일 3개를 하나의 엑셀 파일로 만들어 둡니다. 1. 분석

e-datanews.tistory.com

다음 포스팅은 엑셀 혹은 CSV 파일을 KH Coder3 로 불러온 후, 간단한 한글 텍스트 마이닝을 시도해 보도록 하겠습니다.