클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링

서지반출

기타언어초록

실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.. 현미의 단백질 함량은 화학비료 시용구에서 LM 시용구와 LCSC 100% 기비 시용구보다 유의성 있게 높았다. 따라서 쌀 품질향상에 적절한 양의 LCSC와 화학비료 혼합시용이 효과가 있는 것으로 나타났다. 제조된 악취저감제를 첨가한 T3에서 암모니아가스의 발생이 확실하게 저감됨을 알 수 있었다. 퇴비화 과정 중 발생하는 머캅탄($CH_3SH$)과 황화수소($H_25$)의 일일발생량과 축적량을 측정한 시험에서 제조된 악취저감제를 첨가한 T3에서는 황화수소 가스와 머캅탄 가스가 크게 감소함을 알 수 있었다. 이러한 결과로 미뤄 잣송이 부산물과 미생물을 혼합하여 제조된 악취저감제의 적량 이용은 퇴비화 과정과 퇴비 품질에 영향을 미치지 않으며 퇴비화 과정 중 발생하는 악취물질을 저감시킬 수 있음을 알 수 있었다.0%, 84.9%, 84.9%였다. 결론: 대동맥 판막만을 침범한 감염성 심내막염 환자의 수술적 치료는 만족할 만한 임상 결과와 중, 단기 결과를 보여 주었다. 향상에 도움을 주는 것으로 사료된다..) 이 때 방사선 조사량의 중앙값은 3,600 cGy이었다. 이후 추가 방사선 치료 시 계획용 CT를 사용하지 않고 2-oblique fields 사용하여 치료한 경우가 87명(35.4%)이었는데 방사선 조사량의 중앙값은 1,800 cGy이었다. 전 환자에서 1일 1회 180 cGy로 치료하였다. 전 환자에서 조사된 총 방사선량의 중앙값은 5,580 cGy이었다. 수술 후 방사선 치료를 시행한 경우 중앙값은 5,040 cGy이었고 수술을 받지 않은 환자 중앙값은 5,940 cGy이었다. 근접조사 방사선 치료는 총 34명(13.8%)에서 시행되었고, 전 환자에서 high dose rate Iri

기타언어초록

Many classification algorithms for real world data suffer from a data class imbalance problem. To solve this problem, various methods have been proposed such as altering the training balance and designing better sampling strategies. The previous methods are not satisfy in the distribution of the input data and the constraint. In this paper, we propose a focused sampling method which is more superior than previous methods. To solve the problem, we must select some useful data set from all training sets. To get useful data set, the proposed method devide the region according to scores which are computed based on the distribution of SOM over the input data. The scores are sorted in ascending order. They represent the distribution or the input data, which may in turn represent the characteristics or the whole data. A new training dataset is obtained by eliminating unuseful data which are located in the region between an upper bound and a lower bound. The proposed method gives a better or at least similar performance compare to classification accuracy of previous approaches. Besides, it also gives several benefits : ratio reduction of class imbalance; size reduction of training sets; prevention of over-fitting. The proposed method has been tested with kNN classifier. An experimental result in ecoli data set shows that this method achieves the precision up to 2.27 times than the other methods.

키워드

비 감독 학습 자기조직화지도 베스트 매칭 유니트 집중샘플링 Unsupervised Learning SOM(Self Organizing Map)BMU(Best Matching Unit)Focused Sampling

다운URL