문서 분류

음…. 원래 이 글은 Maching Learnning에 대한 개념이 아주 약간이라도 있는 상태에서 보면 더 좋은 글이긴 한데… 일단 문서를 분류하는 법에 대해 간단하게 정리만 해 드리겠습니다.

 

문서분류란 새로운 문서를 미리 정의된 부류로 대응 시키는 일련의 작업을 말합니다. 문서분류는 1960년대의 정보검색의 한 분야로 연구되어지기 시작하여, 1980년대 말 까지는 주로 이론적인 연구에 머물러 있었고, 실제 응용프로그램 또한 전문가의 수작업을 통해 규칙을 생성해 낸 기반으로 문서를 자동분류 하는 방법을 통해 구현되어 왔습니다. 1990년대에 들어서 컴퓨터가 널리 보급되고 인터넷이 발전함에 따라 디지털 형태의 정보가 급격히 증가하기 시작하여 정보의 과잉현상이 나타나게 되는데, 이때 많은 양의 정보를 자동으로 가공하여 분류하는 문서분류분야의 중요성이 널리 인식되기 시작하게 되었습니다.

최근의 문서분류의 연구는 주로 여러 통계적 기계학습 기법을 기반으로 이루어지고 있습니다. K-NN(Nearest Neighbor), 결정트리(Decision Trees), Support Vector Machine(SVM), 신경망(Neural Network), 나이브 베이지안 학습(Naïve Bayesian Learning), TFIDF(Term Frequency Inverse Document Frequency) 등의 기계학습 기법은 도메인 지식에 독립적이며 대량의 정보를 다룰 수 있어서 자동분류분야연구에 알맞은 기법으로 알려져 있습니다. 그에 대한 연구도 지금 활발하게 이루어 지고 있고요..

K-NN 방법은 메모리 기반 추론에 기반을 둔 학습 기법으로서 관련 문서들 간의 근접도를 이용하여 문서분류가 이루어지는 기법이고, 나이브 베이지안 학습 기법은 각각의 주어진 클래스에 따른 문서의 통계적 확률을 이용하여 클래스를 결정하는 기법입니다. TFIDF방법은 문서 속에 있는 단어의 빈도수를 이용하여 문서를 분류하는 학습 기법입니다.

그러나 통계적인 기계학습을 기반으로 하는 문서분류는 이미 분류가 되어 있는 충분한 양의 데이터를 가지고 기계학습 알고리즘으로 학습 시킨 후, 새로운 문서가 들어왔을 때 학습된 데이터를 기반으로 문서를 분류하는 것이죠. 그러므로, 기계학습기법을 이용한 문서분류기가 최대의 성능을 발휘하려면 충분한 양의 Labeled 데이터가 존재해야 하는데, 그것을 얻기 위해서는 많은 비용이 듭니다. 학습을 시키는 과정 자체가 상당한 양의 비용 지출이 됩니다. 따라서 최근에는 Unlabeled 데이터를 이용해서 문서분류의 향상을 높이려는 연구가 많이 이루어 지고 있습니다.

참고) 여기서 labeled data란 target value를 가지고 있는 데이터를 말하고, unlabeled data는 target value를 가지고 있지 않은 데이터를 말합니다.

일단 이런 이야기인데… 쉽게 와닿지는 않을 꺼에요.

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다