- 한영 기계번역에서 결정 트리 학습에 의한 한국어 부사격 조사의 의미 중의성 해소
- ㆍ 저자명
- 박성배,장병탁,김영택,Park. Seong-Bae,Zhang. Byoung-Tak,Kim. Yung-Taek
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2000년|27권 6호|pp.668-677 (10 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
한국어는 격조사에 의해 구문 역할이 결정되고 하나의 조사가 여러 개의 의미를 가지는 특징이 있다. 특히, 부사격 조사는 그 의미의 다양성으로 인해서 한영 기계 번역에서의 조사 번역을 어렵게 만든다. 본 논문에서는 부사격 조사가 가질 수 있는 의미격을 24개의 클래스로 분류한 후, 50만 어절 크기의 말뭉치에서 추출한 학습 예제와 결정 트리 추론(decision tree induction)을 통해 부사격 조사의 의미격 결정 규칙을 학습하였다. 결정 트리 추론 시 나타날 수 있는 학습 예제의 부족 문제는 단어 클래스를 사용함으로써 해결하였다. 실험 결과, 6개의 부사격 조사에 대해서 평균적으로 76.2%의 정확도를 보였으며, 이는 가장 많이 나타나는 의미격을 부사격 조사의 의미격으로 결정하는 방법에 비해 26.0%의 정확도 향상을 의미한다.
Korean has the characteristics that case postpositions determine the syntactic roles of phrases and a postposition may have more than one meanings. In particular, the adverbial postpositions make translation from Korean to English difficult, because they can have various meanings. In this paper, we describe a method for resolving such semantic ambiguities of Korean adverbial postpositions using decision trees. The training examples for decision tree induction are extracted from a corpus consisting of 0.5 million words, and the semantic roles for adverbial postpositions are classified into 25 classes. The lack of training examples in decision tree induction is overcome by clustering words into classes using a greedy clustering algorithm. The cross validation results show that the presented method achieved 76.2% of precision on the average, which means 26.0% improvement over the method determining the semantic role of an adverbial postposition as the most frequently appearing role.