- PCA-SVM 분류기를 이용한 데이터베이스 워크로드의 다중 클래스 분류
- ㆍ 저자명
- 김소연,박상현,Kim. So-Yeon,Park. Sang-Hyun
- ㆍ 간행물명
- 정보과학회논문지. Journal of KIISE. 데이타베이스
- ㆍ 권/호정보
- 2011년|38권 1호|pp.1-8 (8 pages)
- ㆍ 발행정보
- 한국정보과학회
- ㆍ 파일정보
- 정기간행물| PDF텍스트
- ㆍ 주제분야
- 기타
정보산업 사회가 되면서 생겨난 대용량의 데이터로 인해 기업들은 데이터베이스 시스템을 필수적으로 활용하고 있다. 데이터베이스 시스템 관리자는 효과적인 데이터베이스 시스템의 활용을 위해서 워크로드의 정보를 필요로 한다. 그러나 다양화되고 복잡해지는 데이터베이스 응용 분야로 인해 관리자가 데이터베이스 시스템에서 발생되는 워크로드를 식별하기 힘들어졌다. 따라서 복합적인 데이터베이스 응용분야에서 워크로드를 자동적으로 식별하는 방법이 요구된다. 본 논문에서는 데이터베이스 워크로드를 자동적으로 식별하는 PCA-SVM 워크로드 분류기를 제안한다. TPC-C와 TPC-H 성능평가의 수행 비율별로 자원활당 파라미터 변경에 따른 워크로드 데이터를 수집한다. PCA(Principal Components Analysis)을 적용하여 워크로드 데이터의 특정 벡터의 차원을 축소시키고 다중 클래스 SVM(Support Vector Machine)의 일대다(one-against-all) 기법을 이용하여 워크로드를 분류한다. SVM의 커널별 커널 파라미터와 오류 허용 임계치 값인 C의 조정을 통하여 최적의 PCA-SVM 워크로드 분류기를 선택한다. 실험 결과, PCA-SVM 워크로드 분류기는 특징 벡터의 차원을 2/5로 축소시키면서도 다른 분류기보다 7%이상 정확하게 워크로드를 식별하였다. 또한, 분류 시간은 특정 벡터의 차원을 축소시키기 이전과 비교하여 약 1/18로 단축되어 향상된 분류 성능을 보였다.
A lot of companies have essentially exploited Database Management System (DBMS) to process huge amounts of data due to emerging of the information industry. Database administrators need the information of workload in order to maintain high performance DBMS. However, it has been hard to identify workload due to being diversified and complicated of database application. Therefore, the method which can automatically identify workload is required in these environments. In this paper, we propose PCA-SVM workload classifier for identifying DBMS workloads automatically. For achieving this, we collect workload data according to performance ratio while changing the resource parameters. We reduce the dimension of the feature vectors existing in the workload data by Principal Components Analysis (PCA) and classify the workload by one-against-all approach of multi-class Support Vector Machine (SVM). We experimentally select an optimal PCA-SVM workload classifier by adjusting kernel parameters for each kernel and error-tolerance threshold, C. Experimental results show that the proposed PCA-SVM workload classifier reduces dimension of the feature vector by a factor of 2/5, and its accuracy is about 7% higher than other classifiers. Moreover, the computation time for classification is also improved as much as 18 times compared with the one without dimensionality reduction.