- 오류 데이타에 강한 자질 투영법 기반의 문서 범주화 기법
- ㆍ 저자명
- 고영중,서정연
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2004년|31권 4호|pp.498-504 (7 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
본 논문은 자질 투영법을 사용한 새로운 문서 분류기를 제안한다. 제안된 문서 분류기는 학습 문서를 각 자질로의 투영으로써 표현한다. 문서를 위한 분류 작업은 투영된 각 자질로부터의 투표(voting)에 기인한다. 실험을 통해서 본 제안된 문서 분류기는 단순한 구조에도 불구하고 높은 성능을 보이고 있으며, 특히 기존의 문서 범주화 기법에서 높은 성능을 보여왔던 최근린법(k-NN)과 지지백터기계(SVM)와 비교했을 때 빠른 수행 속도와 오류 데이타가 많을 환경에서 높은 성능을 보인다는 장점이 있다. 또한 제안된 문서 분류기의 알고리즘이 매우 단순하기 때문에 분류기의 구현과 학습 과정이 쉽게 수행될 수 있다. 이러한 이유로 제안된 문서 분류기는 빠른 수행 속도와 견고성(robustness), 그리고 높은 성능을 요구하는 은서 범주화 응용 영역에 유용하게 사용될 수 있을 것이다.
This paper presents a new text classifier based on a feature projection technique. In feature projections, training documents are represented as the projections on each feature. A classification process is based on individual feature projections. The final classification is determined by the sum from the individual classification of each feature. In our experiments, the proposed classifier showed high performance. Especially, it have fast execution speed and robustness with noisy data in comparison with k-NN and SVM, which are among the state-of-art text classifiers. Since the algorithm of the proposed classifier is very simple, its implementation and training process can be done very simply. Therefore, it can be a useful classifier in text classification tasks which need fast execution speed, robustness, and high performance.