- 단어 중의성 해소를 위한 SVM 분류기 최적화에 관한 연구
- ㆍ 저자명
- 이용구,Lee. Yong-Gu
- ㆍ 간행물명
- 정보관리연구
- ㆍ 권/호정보
- 2011년|42권 2호|pp.193-210 (18 pages)
- ㆍ 발행정보
- 한국과학기술정보연구원
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
이 연구는 단어 중의성 해소를 위해 SVM 분류기가 최적의 성능을 가져오는 문맥창의 크기와 다양한 가중치 방법을 파악하고자 하였다. 실험집단으로 한글 신문기사를 적용하였다. 문맥창의 크기로 지역 문맥은 좌우 3단어, 한 문장, 그리고 좌우 50바이트 크기를 사용하였으며, 전역문맥으로 신문기사 전체를 대상으로 하였다. 가중치 부여 기법으로는 단순빈도인 이진 단어빈도와 단순 단어빈도를, 정규화 빈도로 단순 또는 로그를 취한 단어빈도 ${ imes}$ 역문헌빈도를 사용하였다. 실험 결과 문맥창의 크기는 좌우 50 바이트가 가장 좋은 성능을 보였으며, 가중치 부여 방법은 이진 단어빈도가 가장 좋은 성능을 보였다.
The study was applied to context window sizes and weighting method to obtain the best performance of word sense disambiguation using support vector machine. The context window sizes were used to a 3-word, sentence, 50-bytes, and document window around the targeted word. The weighting methods were used to Binary, Term Frequency(TF), TF ${ imes}$ Inverse Document Frequency(IDF), and Log TF ${ imes}$ IDF. As a result, the performance of 50-bytes in the context window size was best. The Binary weighting method showed the best performance.