기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
XML을 이용한 웹 정보 추출 및 다차원 분석
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • XML을 이용한 웹 정보 추출 및 다차원 분석
  • Web Information Extraction and Multidimensional Analysis Using XML
저자명
박병권,Park. Byung-Kwon
간행물명
멀티미디어학회논문지
권/호정보
2008년|11권 5호|pp.567-578 (12 pages)
발행정보
한국멀티미디어학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

인터넷에 있는 방대한 양의 웹 페이지들을 분석하기 위해서는 웹 페이지에 내재된 정보를 추출하는 것이 필요하다. 본 논문에서는 웹 페이지로부터 정보를 추출하고 이를 XML 문서로 변환하여 다차원적으로 분석하는 방법을 제안한다. 웹 페이지로부터 정보를 추출하기 위하여 두 종류의 언어를 제안한다. 하나는 객체지향 모델에 의거하여 웹 정보 추출 규칙을 기술하기 위한 것이고, 다른 하나는 추출하고자 하는 정보를 찾기 위한 HTML 태그 패턴을 정규식으로 기술하기 위한 것이다. XML 문서에 대한 다차원 분석을 위하여 관계형 데이터에 대해 하는 것처럼 웨어하우스를 구축하고 이로부터 다양한 큐브를 생성하는 방법을 제안한다. 마지막으로 본 논문에서 제안한 방법을 미국특허 웹 페이지에 적용한 예를 통해 그 타당성을 보인다.

기타언어초록

For analyzing a huge amount of web pages available in the Internet, we need to extract the encoded information in web pages. In this paper, we propose a method to extract and convert web information from web pages into XML documents for multidimensional analysis. For extracting information from web pages, we propose two languages: one for describing web information extraction rules based on the object-oriented model, and another for describing regular expressions of HTML tag patterns to search for target information. For multidimensional analysis on XML documents, we propose a method for constructing an XML warehouse and various XML cubes from it like the way we do for relational data. Finally, we show the validness of our method through the application to US patent web pages.