- 문서 영상의 정교한 기하적 구조분석을 위한 지식베이스 시스템
- ㆍ 저자명
- 이경호,최윤철,조성배,Lee. Kyong-Ho,Choy. Yoon-Chul,Cho. Sung-Bae
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 소프트웨어 및 응용
- ㆍ 권/호정보
- 2001년|28권 11호|pp.795-813 (19 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
문서 영상으로부터 논리적인 구성 요소를 추출하여 전자 문서를 생성하기 위해서는 정교한 수준의 기하적인 구조 분석이 선행되어야 한다. 본 논문은 과학기술 논문을 대상으로 정교한 수준의 기하적인 구조 분석을 지원하기 위하여 지식베이스에 기반한 방법을 제안한다. 제안된 지식베이스는 과학기술 논문 유형이 공통적으로 갖는 기하적인 특성은 물론이고 출판물 특유의 특성에 대한 지식을 규칙 형태로 표현한다. 제안된 방법은 상향식과 하향식의 복합 기법을 사용하며 영역분할과 식별의 두 단계로 구성된다. 일반적으로 영역분할에 의하여 분할된 영역과 레이아웃을 구성하는 복합 객체사이에는 일-대-일의 대응관계가 존재하지 않는다. 따라서 제안된 방법은 분할된 영역을 추가로 분할하거나 통합하면서 이미지, 드로잉, 그리고 테이블 등의 비 텍스트 객체는 물론이고 텍스트 라인이나 수식과 같은 텍스트객체를 식별한다. 제안된 방법의 평가하기 위하여 IEEE Transactions on Pattern Analysis and Machine Intelligence로부터 스캐닝한 372개의 논문영상으로 실험한 결과, 제안된 방법은 99% 이상의 실험 영상에 대한 기하적인 구조 분석에 성공하여 기존 방법에 비해 정교한 수준의 성능을 보였다.
Sophisticated geometric structure analysis must be preceded to create electronic document from logical components extracted from document image. this paper presents a knowledge-based method for sophisticated geometric structure analysis of technical journal pages. The proposed knowledge base encodes geometric characteristics that are not only common in technical journals but also publication-specific in the form rules. The method takes the hybrid of top-down and bottom-up techniques and consists of two phases: region segmentation and identification. Generally, the result of segmentation process does not have a one-to-one matching with composite layout components. Therefore, the proposed method identifies non-text objects such as image, drawing and table, as well as text objects such as text line and equation by splitting or grouping segmented regions into composite layout components. Experimental results with 372 images scanned from the IEEE Transactions on Pattern Analysis and Machine Intelligence show that the proposed method has performed geometrical structure analysis successfully on more than 99% of the test images, resulting in sophisticated performance compared with previous works.