- 접두사 원소 선별을 이용한 효율적인 편집거리 기반 유사 문자열 검색 기법
- ㆍ 저자명
- 김종익,Kim. Jong-Ik
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 컴퓨팅의 실제 및 레터
- ㆍ 권/호정보
- 2012년|18권 9호|pp.654-659 (6 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
유사 문자열 검색은 데이터 클리닝, 중복 문서 제거, 표절 검색 및 협조 필터링과 같이 다양한 응용에 필수적인 연산이다. 유사 문자열 검색은 우선 데이터 내에서 후보 문자열들을 추출해 낸 후에 후보 문자열들을 검증하는 방법으로 수행된다. 이때, 후보 문자열의 개수를 가능하면 적게 만드는 것이 성능에 큰 영향을 미친다. 후보 문자열의 수를 줄이기 위해 현재까지 제안된 기술들은 prefix 필터링 기법을 이용한다. 본 논문에서는 prefix 내의 일부 원소들만을 이용하여 후보 문자열을 생성할 수 있음을 보이고 이를 이용하여 생성되는 후보의 개수를 크게 줄일 수 있는 기법을 제안한다. 또한, 실험을 통해 제안하는 기법이 기존의 기법들 보다 후보의 수를 크게 줄이고 이에 따라 성능을 향상시킴을 보인다.
Similarity search is important in many applications including data cleaning, near duplicate detection, plagiarism detection and collaborative filtering. Existing methods make use of a filter-and-verification framework. They first generate candidate strings and then verify the candidates. It is very important to generate candidates as small as possible. The prefix-filtering technique is widely used to reduce the number of candidates. In this paper, we show that we can generate candidates using partial elements in the prefix of a query. Based on the observation, we propose a technique that reduces the number of candidates significantly. Experimental results show that our technique achieves high efficiency.