- 최대엔트로피 추정법에 의한 마코프 랜덤필드기반 영어 태깅 방법
- Part-of-speech Tagger Using Maixmum Entropy Estimation Method Based Markov Random Field
- ㆍ 저자명
- 정성영,박영찬
- ㆍ 간행물명
- 인지과학
- ㆍ 권/호정보
- 1996년|7권 2호|pp.57-73 (17 pages)
- ㆍ 발행정보
- 한국인지과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
확률모델은 자연언어 처리 분양에 널리 사용되고 있다.주어진 문장의 각 단어에 올바른 품사를 할당하는 품사태깅문제는 통계를 기반으로 한 접근 방법으로 해결이 시도되고 있는 분야중 하나이다.통계에 기반한 대표적인 모델로 은닉 마코프모델(HMM)을 이용한 방법들이 제시되었다.그러나 여기에는 서로 상이한 정보들을 통합하는 문제,자료희귀문제,모델의 수정,정보의 추가등 다른 환경으로 바꾸기 어려운 문제등을 안고 있다.본 논문에서는 마코드랜덤필드(MBR)모델에 기반한 태깅 모델에 기반한 태깅 모델을 제안한다.MBR모델은 다양한 통계정보를 최대엔트로피(ME)원리에의해 통합할 수 있는 방법을 제공한다.깁스분포를 사용하여 posteriori 확률값을 유도해 내고, 이를 MAP(Maximum a Posteriori)추정법을 이용하여 최적화과정을 거친다.통계정보를 추가하면서 각각의 태킹모델을 구성하여 추가된 정보의 영향이 태거의 성능에 어떠한 영향을 미치는지를 관찰한다.실험의 결과에서는 통계정보를 추가함에 따라 태거의 성능이 지속적으로 향상될 수 있음을 보이고 있고,마코프 랜덤필드에 기반한 태깅 모델이 HMM에 기반한 태깅 모델에 비해 학습데이타가 적은 경우 더 좋은 성능을 내고 있고 자료희귀문제가 더 적음을 보이고 있다. 주제어:품사태깅,마코프랜덤필드.최대엔트로피 추정법
Probabilistic models have been widely used for natural language processing.Part-of-speech tagging.which assigns the most likely tag to each word in a given sentence, is one of the problems which can be solved by statistical approach.Many researchers have tried to solve the problem by Hidden Markov Model(HMM),which is well known as one of the statstical models.But it has many difficulties:intergrating heterogeneous information,coping with data sparseness problem,and adapting to new enviroments.In this paper,we propose a Markov radom field (MRF)model based approach to the tagging problem.The MRF provides the base frame to combine various statistical information with maximum entropy (ME)method.As Gibbs distribution can be used to describe a posteriori probability of tagging,we use it in Maximum A Posteriori(MAP) estimation of optimizing process.Besides,several tagging models are developed to show the effect of adding information.Experimental results show that the performance of the tagger gets improved as we add more statistical information,and that MRF-based tagging model is better than HMM based tagging model in data sparseness problem. Keywords:Tagging,Markov random field,Maximum Entropy Estimation