기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
화자 정규화를 위한 새로운 파워 스펙트럼 Warping 방법
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • 화자 정규화를 위한 새로운 파워 스펙트럼 Warping 방법
저자명
유일수,김동주,노용완,홍광석
간행물명
電子工學會論文誌. Journal of the Institute of Electronics Engineers of Korea. SP, 신호처리
권/호정보
2004년|41권 4호|pp.103-111 (9 pages)
발행정보
대한전자공학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

화자 정규화 방법은 화자 독립 음성인식 시스템에서 음성 인식의 정확성을 높이기 위한 성공적인 방법으로 알려져 왔다. 널리 사용되는 화자 정규화 방법은 maximum likelihood 반의 주파수 warping 방법이다. 본 논문은 주파수 warping 보다 더 좋은 화자 정규화의 성능 개선을 위해 새로운 파워 스펙트럼 warping 방법을 제안한다. 파워 스펙트럼 warping은 멜 주파수 켑스트럼 분석(MFCC) 방법을 이용하며, MFCC 처리 단계에서 필터 뱅크의 파워 스펙트럼을 조절함으로써 화자 정규화를 수행하는 간단한 메커니즘으로 갖는다. 또한 본 논문은 파워 스펙트럼 warping과 주파수 warping 방법을 서로 결합한 hybrid VTN 방법을 제안한다. 본 논문의 실험은 baseline 시스템에 각 화자 정규화 방법을 적용하여 SKKU PBW DB에서 인식 성능을 비교 분석하였다. 실험 결과를 보면 baseline 시스템의 단어 인식 성능을 기준으로 주파수 warping은 2.06%, 파워 스펙트럼 warping은 3.05%, 그리고 hybrid VTN은 4.07%의 단어 에러 율의 감소를 보였다.

기타언어초록

The method of speaker normalization has been known as the successful method for improving the accuracy of speech recognition at speaker independent speech recognition system. A frequency warping approach is widely used method based on maximum likelihood for speaker normalization. This paper propose a new power spectrum warping approach to making improvement of speaker normalization better than a frequency warping. Th power spectrum warping uses Mel-frequency cepstrum analysis(MFCC) and is a simple mechanism to performing speaker normalization by modifying the power spectrum of Mel filter bank in MFCC. Also, this paper propose the hybrid VTN combined the Power spectrum warping and a frequency warping. Experiment of this paper did a comparative analysis about the recognition performance of the SKKU PBW DB applied each speaker normalization approach on baseline system. The experiment results have shown that a frequency warping is 2.06%, the power spectrum is 3.06%, and hybrid VTN is 4.07% word error rate reduction as of word recognition performance of baseline system.