- 고차원 퍼지 데이터베이스를 위한 효율적인 탐색 알고리즘
- ㆍ 저자명
- 차광호,Cha. Guang-Ho
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 데이타베이스
- ㆍ 권/호정보
- 2012년|39권 5호|pp.288-295 (8 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
본 논문은 음악 또는 그와 유사한 구조를 갖는 퍼지한 특성의 고차원 이진 데이터베이스를 위한 효율적인 탐색 알고리즘을 제시한다. 각 음악은 오디오 핑거프린팅 기법을 사용하여 고차원 이진 벡터의 오디오 핑거프린터로 표현된다. 음악 검색은 해당 음악에서 추출한 핑거프린트와 오디오 핑거프린트 데이터베이스 내용을 비교하여 매치하는 것을 찾는다. 그러나 오디오 핑거프린트의 퍼지한 특성과 고차원 이진 데이터의 특성으로 인해 기존의 탐색 알고리즘의 사용이 불가능하며 차원의 저주 문제를 피할 수 없다. 본 논문에서는 역색인과 다수 핑거프린트 매치 원리, 오프셋 매치 원리, 조기 종료 전략에 기반하여 고차원 이진 퍼지 데이터베이스를 위한 새로운 탐색 기법을 제안한다. 약 사백만개의 핑거프린트를 포함하는 이천개의 음악으로 구성된 데이터베이스 상에서의 실험 결과 본 기법은 우수한 성능을 보였다.
This paper proposes an efficient search algorithm for high dimensional binary fuzzy databases that store songs or data with a similar structure. A song is represented by a high dimensional binary vector using the audio fingerprinting technique. Audio fingerprinting extracts from a song a fingerprint which is a compact signature that summarizes an audio recording. A song can be recognized by matching an extracted fingerprint to a database of known audio fingerprints. However, the nature of high dimensional binary data makes many modern search algorithms inapplicable. The high dimensionality of fingerprints suffers from the curse of dimensionality. In order to tackle this problem, we propose a new search algorithm based on inverted indexing, the multiple fingerprint match principle, the offset match principle, and the early termination strategy. We evaluate our technique using a database of 2,000 songs containing approximately 4,000 fingerprints and the experimental result shows encouraging performance.