- Hellinger 엔트로피를 이용한 다차원 연속패턴의 생성방법
- ㆍ 저자명
- 이창환,Lee. Chang-Hwan
- ㆍ 간행물명
- 정보처리학회논문지. The KIPS transactions. Part B. Part B
- ㆍ 권/호정보
- 2004년|4호|pp.477-484 (8 pages)
- ㆍ 발행정보
- 한국정보처리학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
데이터 마이닝에서 연속패턴(sequential pattern) 생성기술은 시차를 두고 발생한 사건들에 대하여 잠재해있는 패턴을 발견하는 기술을 의미한다. 본 연구는 정보이론을 이용하여 데이터베이스로부터 연속패턴을 자동으로 발견하는 방법에 관한 내용이다. 기존의 방법들이 한 속성내에서의 연속패턴만을 탐지하는 일차원 연속패턴을 생성하는데 비하여 본 연구에서 제시하는 방법은 데이터베이스내의 모든 속성간의 연속패턴 관계를 탐지할 수 있는 다차원 연속패턴을 생성할 수 있다. 본 연구에서는 연속패턴 생성을 위하여 헬링거(Hellinger) 변량을 사용하였으며 이를 이용하여 발견된 연속패턴들의 중요도를 측정할 수 있었다. 또한 헬링거 변량의 함수적인 특성을 분석하여 연속패턴 추출의 복잡도를 줄이기 위한 두 가지의 법칙이 제안되었고 다수의 실험 데이터를 통하여 다차원의 연속패턴을 생성할 수 있음을 보였다.
The technique of sequential pattern mining means generating a set of inter-transaction patterns residing in time-dependent data. This paper proposes a new method for generating sequential patterns with the use of Hellinger measure. While the current methods are generating single dimensional sequential patterns within a single attribute, the proposed method is able to detect multi-dimensional patterns among different attributes. A number of heuristics, based on the characteristics of Hellinger measure, are proposed to reduce the computational complexity of the sequential pattern systems. Some experimental results are presented.