기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
길이 및 어휘 정보와 번역 모델을 이용한 한영 문장 정렬
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 길이 및 어휘 정보와 번역 모델을 이용한 한영 문장 정렬
저자명
홍진표,차정원,Hong. Jeen-Pyo,Cha. Jeong-Won
간행물명
정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
권/호정보
2013년|40권 8호|pp.463-472 (10 pages)
발행정보
한국정보과학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

문장 정렬은 언어가 다른 두 문서에서 대응되는 문장을 찾는 작업이다. 이 작업은 통계적 기계번역의 학습 문서인 병렬 말뭉치를 자동으로 구축하는데 필수적이다. 본 연구는 어휘 정보를 추가하기 위해 동일한 언어의 관점에서 비슷한 문장을 찾기 위한 방법으로 접근하였다. 제안하는 문장 정렬 방법은 다음과 같다. (1) 기존 기계 번역 시스템을 이용하여 원시 문서를 대상 문서의 언어인 영어로 번역한다. (2) 번역한 결과와 대상 문서를 이용하여 동일 언어에 적합한 문장 정렬 방법을 수행한다. 이를 위해 본 논문에서는 길이 정보와 어휘 정보를 기존 방법과 달리, 비즈 범주 가중치 대신 어휘 정보를 활용하였다. 그리고 (3) 문장 정렬 결과로부터 원시 문서와 대상 문서 간의 문장 정렬 결과를 얻어낸다. 그 결과, "21세기 세종기획"의 최종 배포본 내 포함된 한영 병렬 말뭉치에 대해 F-1이 96.20%를 기록했다.

기타언어초록

Sentence alignment is a task to find to corresponding sentences between two documents which are consisted of different languages. It is essential to collect parallel corpus automatically for statistical machine translation. We propose a new method that combines length based method and lexical information. The proposed method is follows: (1) we translate source documents into English using the existing machine translation system. (2) we use a monolingual sentence alignment method. In this method, we use lexical information instead of case penalty of beads. Then (3) we convert the result of (2) into an original source language and target language. According to the experiment using the 21st Sejong parallel corpora, we can see the performance of 96.20% using F-1 measure.