길이 및 어휘 정보와 번역 모델을 이용한 한영 문장 정렬

길이 및 어휘 정보와 번역 모델을 이용한 한영 문장 정렬

ㆍ 저자명: 홍진표,차정원,Hong. Jeen-Pyo,Cha. Jeong-Won
ㆍ 간행물명: 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
ㆍ 권/호정보: 2013년|40권 8호|pp.463-472 (10 pages)
ㆍ 발행정보: 한국정보과학회
ㆍ 파일정보: 정기간행물|
PDF텍스트
ㆍ 주제분야: 기타

이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.

서지반출

기타언어초록

문장 정렬은 언어가 다른 두 문서에서 대응되는 문장을 찾는 작업이다. 이 작업은 통계적 기계번역의 학습 문서인 병렬 말뭉치를 자동으로 구축하는데 필수적이다. 본 연구는 어휘 정보를 추가하기 위해 동일한 언어의 관점에서 비슷한 문장을 찾기 위한 방법으로 접근하였다. 제안하는 문장 정렬 방법은 다음과 같다. (1) 기존 기계 번역 시스템을 이용하여 원시 문서를 대상 문서의 언어인 영어로 번역한다. (2) 번역한 결과와 대상 문서를 이용하여 동일 언어에 적합한 문장 정렬 방법을 수행한다. 이를 위해 본 논문에서는 길이 정보와 어휘 정보를 기존 방법과 달리, 비즈 범주 가중치 대신 어휘 정보를 활용하였다. 그리고 (3) 문장 정렬 결과로부터 원시 문서와 대상 문서 간의 문장 정렬 결과를 얻어낸다. 그 결과, "21세기 세종기획"의 최종 배포본 내 포함된 한영 병렬 말뭉치에 대해 F-1이 96.20%를 기록했다.

기타언어초록

Sentence alignment is a task to find to corresponding sentences between two documents which are consisted of different languages. It is essential to collect parallel corpus automatically for statistical machine translation. We propose a new method that combines length based method and lexical information. The proposed method is follows: (1) we translate source documents into English using the existing machine translation system. (2) we use a monolingual sentence alignment method. In this method, we use lexical information instead of case penalty of beads. Then (3) we convert the result of (2) into an original source language and target language. According to the experiment using the 21st Sejong parallel corpora, we can see the performance of 96.20% using F-1 measure.

키워드

통계적 기계 번역 문장 정렬 병렬 말뭉치 자연어 처리 statistical machine translation sentence alignment parallel corpus natural language processing

다운URL