- 음절 단위의 한국어 품사 태깅에서 원형 복원
- ㆍ 저자명
- 심광섭,Shim. Kwangseob
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2013년|40권 3호|pp.182-189 (8 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
본 논문에서는 음절 단위의 한국어 품사 태깅에서 문제점으로 지적된 바 있는 원형 복원 문제에 대한 새로운 해결 방안을 제시한다. 이 방법에서는 품사 태깅 말뭉치로부터 자동 생성된 음절 복원 사전을 이용하여 원형 복원을 수행한다. 이 과정에서 복잡한 한국어 형태론적 처리를 하지 않아도 되므로 음절 태깅 후 형태소를 구성하는 과정이 매우 단순화된다는 장점도 있다. 398,632 어절의 학습 데이터를 사용해 학습을 하고 33,467 어절의 평가 데이터로 성능 평가를 수행한 결과 96.60%의 어절 정확도를 달성하였다.
In this paper, we present a new solution to the morpheme restoration problem, which was reported to exist in the previous syllable-based Korean POS tagging work. In the proposed solution, morphemes are restored by using a syllable dictionary derived from a POS-tagged corpus. The restoration process is so simple that such a complicated morphological processing is not required. The performance of the syllable-based Korean POS tagger with the proposed solution equipped is evaluated with 33,467 eojeols, and we attain 96.60% of tagging accuracy. For the evaluation, the tagger is trained with a POS-tagged corpus of 398,632 eojeols.