기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
접두사 원소 선별을 이용한 효율적인 편집거리 기반 유사 문자열 검색 기법
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 접두사 원소 선별을 이용한 효율적인 편집거리 기반 유사 문자열 검색 기법
저자명
김종익,Kim. Jong-Ik
간행물명
정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터
권/호정보
2012년|18권 9호|pp.654-659 (6 pages)
발행정보
한국정보과학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

유사 문자열 검색은 데이터 클리닝, 중복 문서 제거, 표절 검색 및 협조 필터링과 같이 다양한 응용에 필수적인 연산이다. 유사 문자열 검색은 우선 데이터 내에서 후보 문자열들을 추출해 낸 후에 후보 문자열들을 검증하는 방법으로 수행된다. 이때, 후보 문자열의 개수를 가능하면 적게 만드는 것이 성능에 큰 영향을 미친다. 후보 문자열의 수를 줄이기 위해 현재까지 제안된 기술들은 prefix 필터링 기법을 이용한다. 본 논문에서는 prefix 내의 일부 원소들만을 이용하여 후보 문자열을 생성할 수 있음을 보이고 이를 이용하여 생성되는 후보의 개수를 크게 줄일 수 있는 기법을 제안한다. 또한, 실험을 통해 제안하는 기법이 기존의 기법들 보다 후보의 수를 크게 줄이고 이에 따라 성능을 향상시킴을 보인다.

기타언어초록

Similarity search is important in many applications including data cleaning, near duplicate detection, plagiarism detection and collaborative filtering. Existing methods make use of a filter-and-verification framework. They first generate candidate strings and then verify the candidates. It is very important to generate candidates as small as possible. The prefix-filtering technique is widely used to reduce the number of candidates. In this paper, we show that we can generate candidates using partial elements in the prefix of a query. Based on the observation, we propose a technique that reduces the number of candidates significantly. Experimental results show that our technique achieves high efficiency.