기관회원 [로그인]
소속기관에서 받은 아이디, 비밀번호를 입력해 주세요.
개인회원 [로그인]

비회원 구매시 입력하신 핸드폰번호를 입력해 주세요.
본인 인증 후 구매내역을 확인하실 수 있습니다.

회원가입
서지반출
WSOLA 기반의 음성 시간축 변환을 위한 고속의 정규상호상관도 계산
[STEP1]서지반출 형식 선택
파일형식
@
서지도구
SNS
기타
[STEP2]서지반출 정보 선택
  • 제목
  • URL
돌아가기
확인
취소
  • WSOLA 기반의 음성 시간축 변환을 위한 고속의 정규상호상관도 계산
저자명
임상준,김형순,Lim. Sangjun,Kim. Hyung Soon
간행물명
한국음향학회지= The journal of the acoustical society of Korea
권/호정보
2012년|31권 7호|pp.427-434 (8 pages)
발행정보
한국음향학회
파일정보
정기간행물|
PDF텍스트
주제분야
기타
이 논문은 한국과학기술정보연구원과 논문 연계를 통해 무료로 제공되는 원문입니다.
서지반출

기타언어초록

WSOLA 방식은 음성 신호의 시간축 변환을 위한 고음질의 효율적인 알고리즘으로 알려져 있다. WSOLA의 계산량은 두 신호 파형 사이의 유사도를 평가하는 반복적인 정규상호상관도 계산에 집중되어 있다. 본 논문은 WSOLA 계산량 감축을 위해 고속의 정규상호상관도 계산 방법을 제안하며, 제안된 방법에서는 미리 계산된 합 테이블을 통해 인접한 구간에서의 반복적인 정규상호상관도 계산의 중복성을 제거한다. 정규상호상관도의 분모 부분은 시간축 변환 비율에 관계없이 높은 중복성을 가지는데 반해, 분자 부분은 보다 낮은 중복성을 가지며 중복 정도가 시간축 변환 비율과 최적 이동값에 의해 영향을 받기 때문에 고속 계산을 위해 보다 복잡한 알고리즘이 요구된다. 시뮬레이션 결과, 제안된 방법이 기존의 WSOLA와 완전히 동일한 음질을 유지하면서도 시간축 압축의 경우 약 40%, 그리고 1/2배속 및 1/3배속으로의 시간축 신장의 경우 각각 약 47% 및 52%의 실행시간을 감소시킴을 보인다.

기타언어초록

The overlap-add technique based on waveform similarity (WSOLA) method is known to be an efficient high-quality algorithm for time scaling of speech signal. The computational load of WSOLA is concentrated on the repeated normalized cross-correlation (NCC) calculation to evaluate the similarity between two signal waveforms. To reduce the computational complexity of WSOLA, this paper proposes a fast NCC computation method, in which NCC is obtained through pre-calculated sum tables to eliminate redundancy of repeated NCC calculations in the adjacent regions. While the denominator part of NCC has much redundancy irrespective of the time-scale factor, the numerator part of NCC has less redundancy and the amount of redundancy is dependent on both the time-scale factor and optimal shift value, thereby requiring more sophisticated algorithm for fast computation. The simulation results show that the proposed method reduces about 40%, 47% and 52% of the WSOLA execution time for the time-scale compression, 2 and 3 times time-scale expansions, respectively, while maintaining exactly the same speech quality of the conventional WSOLA.