- 자연어검색시스템을 위한 스태밍알고리즘의 설계 및 구현
- ㆍ 저자명
- 이효숙
- ㆍ 간행물명
- 정보관리학회지
- ㆍ 권/호정보
- 1997년|14권 2호|pp.213-234 (22 pages)
- ㆍ 발행정보
- 한국정보관리학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
본 연구에서는 자연어 검색시스템을 위한 스태밍알고리즘을 설계하고 이를 구현하였다. 알고리즘은 순환적으로 다음과 같은 세가지 과정으로 진행된다. : 불용어사전에 의한 불용어의 제거; 규칙 테이블1의 적용에 따른 기본 어미의 처리; 전단계에서 처리되고 남은 어절에 대해 규칙테이블 2를 적용하여 확장스태밍 및 다시쓰기루틴으로 진행된다. 알고리즘의 성능 평가를 위한 한글문헌집단을 사용하여 테스트한 결과 압축률 21.4%, 오류율 15.9%의 결과를 나타내었다.
A stemming algorithm for the Korean language free-text retrieval system has been designed and implemented. The algorithm contains three major parts and it operates iteratively ; firstly, stop-words are removed with a use of a stop-word list ; secondly, a basic removing procedure proceeds with a rule table 1, which contains the suffixes, the postpositional particles, and the optionally adopted symbols specifying an each stemming action ; thirdly, an extended stemming and rewriting procedures continue with a rule table 2, which are composed of th suffixes and the optionally combined symbols representing various actions depending upon the context-sensitive rules. A test was carried out to obtain an indication of how successful the algorithm was and to identify any minor changes in the algorithm for an enhanced one. As a result of it, 21.4 % compression is achieved and an error rate is 15.9%.