기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
기분석 부분 어절 사전을 활용한 한국어 형태소 분석기
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 기분석 부분 어절 사전을 활용한 한국어 형태소 분석기
저자명
신준철,옥철영,Shin. Joon-Choul,Ock. Cheol-Young
간행물명
정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
권/호정보
2012년|39권 5호|pp.415-424 (10 pages)
발행정보
한국정보과학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

말뭉치 기반 한국어 형태소 분석 방법은 대용량의 기분석 어절사전을 사용하여 분석하고, 그 사전에 없는 어절의 경우 코드 변환, 형태소 분리, 원형 복원 동의 복잡한 분석 규칙을 통해 후보들을 생성했다. 이 복잡한 분석 규칙은 프로그램의 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 떨어뜨리고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 기분석 부분 어절 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 기분석 부분 어절 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 형태소 분석의 재현율이 99.05%였으며, 은닉 마르코프 모델을 이용한 품사 및 동형이의어 태깅 정확률은 96.76%였다.

기타언어초록

The Korean morphological analysis based on corpus usually uses the pre-analyzed full word-phrase dictionary(FWD) that is constructed from the corpus. If input words are not found in the FWD, the morphemes of the input words are analyzed using complicated analysis rules: code transformation, decomposition of morphemes, and restoration of original form. Such complicated analysis rules are inefficient in terms of programming, maintenance, and runtime and cause to reduce its accuracy and performance. In order to solve these problems, the method using a pre-analyzed partial word-phrase dictionary(PWD) was researched. This paper proposes new method that constructs the PWD from tagged corpus and analyzes Korean morpheme using the PWD. According to the experiments on Sejong corpus, the recall of morpheme analysis is 99.05%. And the accuracy of POS with homonym tagging based on Hidden-Markov-Model is 96.76%.