본문 바로가기

교육

KHcoder│한글 복합어 불용어 처리 방법 │빅카인즈

이번 포스팅에서는 KHcoder를 이용하여 한글 텍스트 마이닝을 실행할 때, 복합어와 불용어 처리 방법에 관하여 정리합니다. 이를 위해 빅 카인즈에서 비건 화장품이라는 키워드로 뉴스 데이터를 검색 및 수집한 후, 각 뉴스들의 헤드라인을 활용해보겠습니다. 텍스트 마이닝에서 복합어 혹은 불용어 처리는 분석 결과를 보다 명확히 하기 위한 필수 절차라는 점을 다시 한번 강조합니다. 

 

빅카인즈에서 비건 화장품 뉴스 데이터 호출 

한국 언론진흥재단에서 운영하는 빅 카인즈의 뉴스 데이터 중 비건 화장품 키워드를 활용하여 KHcoder 기반 한글 텍스트 마이닝을 실행해보겠습니다. 아래 업로드한 파일은 빅 카인즈에서 출력한 비건 화장품 뉴스데이터입니다. 이번 포스팅을 함께 따라서 하실 분들은 아래 파일을 각자 내려받기 바랍니다. 

bigkinds.xlsx
0.01MB

 

 

혹시 빅카인즈가 처음인 분들은 우선 아래 포스팅 먼저 확인하기 바랍니다. 

 

[카드뉴스] 빅카인즈(BIGKinds) 활용방법

이번 포스팅에서는 국내 뉴스빅데이터 분석서비스를 제공하는 빅카인즈(BIGKinds) 활용방법을 소개하고자 합니다. 예제 검색키워드는 중앙아시아 5개국가 중 우리나라 화장품 최대 수입국가 중

e-datanews.tistory.com

 

KHcoder를 이용한 동시 출현 네트워크 실행 및 복합어와 불용어 확인

KHcoder에서 제공하는 데이터 전 처리 이후 동시 출현 네트워크 분석 결과를 구현한 결과가 아래 이미지입니다. 각 키워드를 클릭하면, 팝업창과 함께 해당 키워드가 포함된 문장이 함께 나타나게 되며, 어떤 방식으로 복합어 혹은 불용어 처리를 해야 하는지에 대한 아이디어를 얻을 수 있게 됩니다. 가령, 아래 이미지를 예로 든다면, "입"이라는 키워드가 분석 결과 등장했으나, 해당 단어가 어떤 단어를 토큰 화한 결과인지 확인하려면, 해당 단어인 "입"을 더블클릭하면, 다음과 같은 팝업창이 뜨면서 어떤 문장에서 사용되고 있는지 확인 가능하게 됩니다. 즉 "입" 은 "입점"이었음을 알 수 있으며, "입"을 "입점"이라는 복합어로 수정할 필요가 있음을 확인할 수 있습니다. 다른 키워드들도 유사한 방식으로 확인한 후, 복합어 혹은 불용어 처리 여부를 결정하면 됩니다. 

동시출현네트워크 실행 및 복합어와 불용어 확인
동시출현네트워크 실행 및 복합어와 불용어 확인

 

복합어와 불용어 1차 추가 처리 

PRe-processing 서브 메뉴 중에 "Select Words to Anlyze" 가 있습니다. 해당 메뉴를 클릭하면 아래와 같은 팝업창이 생성되는데요. "force pick up"과 "force ignore"  각 창에 복합어와 불용어를 각각 입력한 후, OK 버튼을 클릭하면 됩니다. 여기서 중요한 점은 복합어와 불용어 입력한 후에는 반드시 PRe-processing 다시 한번 실행해야만 추가한 복합어와 불용어가 분석 결과에 반영된다는 점입니다. 특히 이 점을 유념하기 바랍니다.  

복합어와 불용어 1차 추가 처리
복합어와 불용어 1차 추가 처리

 

복합어와 불용처 처리 결과 확인

PRe-processing 이후, 다시 동시출현네트워크분석을 실행하고 해당 결과를 살펴보면, 아래와 같은 결과를 얻을 수 있게 됩니다. 다만, 동그라미 점선으로 표시된 단어들은 2차 복합어 혹은 불용어 처리가 필요한 단어들을 표시한 것입니다. 2차 처리 역시 앞서 했던 방식을 그대로 반복 수행하면 되겠습니다. 

복합어와 불용어 1차 처리 결과 확인
복합어와 불용어 1차 처리 결과 확인

 

정리

이번 포스팅에서는 KHcoder를 이용하여 한글 텍스트마이닝을 실행할 경우, 전처리 수행방법을 소개하는 것이었습니다. 데이터 전처리를 추가적으로 실행하다 보면, 기존에 등장하지 않았던 전처리를 해야 하는 새로운 단어들이 등장하게 됩니다. 결국 이를 한 번에 해결하는 방법은 KHcoder 메뉴 중 Tools > Words > Frequency List를 열어 모든 단어들을 수정하는 것이 오히려 나을 수도 있으니, 이 점도 참고하기 바랍니다.