기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
주변정보 분할을 이용한 주제 중심 웹 문서 수집기
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 주변정보 분할을 이용한 주제 중심 웹 문서 수집기
저자명
조창희,이남용,강진범,양재영,최중민,Cho. Chang-Hee,Lee. Nam-Yong,Kang. Jin-Bum,Yang. Jae-Young,Choi. Joong-Min
간행물명
정보처리학회논문지. The KIPS transactions. Part B. Part B
권/호정보
2005년|6호|pp.697-702 (6 pages)
발행정보
한국정보처리학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소 정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 소각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.

기타언어초록

The focused crawler is a topic-driven document-collecting crawler that was suggested as a promising alternative of maintaining up-to-date web document Indices in search engines. A major problem inherent in previous focused crawlers is the liability of missing highly relevant documents that are linked from off-topic documents. This problem mainly originated from the lack of consideration of structural information in a document. Traditional weighting method such as TFIDF employed in document classification can lead to this problem. In order to improve the performance of focused crawlers, this paper proposes a scheme of locality-based document segmentation to determine the relevance of a document to a specific topic. We segment a document into a set of sub-documents using contextual features around the hyperlinks. This information is used to determine whether the crawler would fetch the documents that are linked from hyperlinks in an off-topic document.