Mixed Excitation Linear Prediction

MELP(Mixed-Excitation Linear Prediction, 혼합 여진 선형 예측)는, 1996년에 Federal-Standard 1015(LPC-10 e)의 대체로서 선택된 저bit rate의 음성 encode 방식으로, 2.4 kbps로 음성을 encode 할 수 있는[¹]. MELPe(enhanced Mixed-Excitation Linear Prediction)는 2.4 kbps MELP를 한층 더 개량한 것으로, 소음이 많은 환경에서의 특성이 뛰어나[²], 0.6, 1.2, 2.4 kbps로 음성을 encode 할 수 있다.

2.4 kbps MELP는 최초, 미군용의 MIL-STD-3005로 규격화된[³].그 확장판인 MELPe는 미군/NATO의 공통 규격으로서 STANAG4591으로 규격화되고 있다.주로 군용의 암호화 전술 라디오 커뮤니케이션 시스템이나 정부용의 암호화 전화를 위한 음성 encode 방식으로서 사용되고 있다.

개요

MELP는 미국 국방총성이 중심이 되고 규격화를 실시한 저bit rate의 음성 encode 방식으로, Federal-Standard 1015(2.4 kbps LPC-10 e)의 후계로서 규격화되었다.2.4 kbps MELP encode 방식의 선택과 규격화는 DoD Digital Voice Processor Consortium(DDVPC, 국방총성 디지털 보이스 처리 장치 컨소시엄)가 1993년부터 1997년에 걸쳐 행동[¹], MIL-STD-3005가 되었다.2.4 kbps MELP는 Federal-Standard 1015(2.4 kbps LPC-10 e)보다 뛰어나 Federal-Standard 1016(4.8 kbps CELP)으로 동등한가 뛰어난 음질로, 소음이 많은 환경에서의 성능이 우수했다.

MIL-STD-3005는 그 후, 잡음 억제의 사전 처리 추가등의 확장을 함과 동시에 1.2 kbps로의 encode이 서포트되어 MELPe(enhanced MELP)가 되었다.군용차 양의 한비(HMMWV)나 CH-47 헬리콥터의 소음 환경에서의 평가로는, 2.4 kbps MELPe는 오리지날의 2.4 kbps MELP보다 뛰어나 1.2 kbps MELPe도 2.4 bps MELP에 가까워, Federal-Standard 1015(2.4 kbps LPC-10 e)보다 뛰어난 음질이었던[⁴][²].1.2 kbps/2. 4 kbps MELPe는 NATO로 여러가지 평가를 해[⁵], 2002년에 NATO의 규격이라고 해도 채용되어 STANAG4591이 되었다.

그 후, 2005년에는 STANAG4591에 0.6 kbps(600 bps)로의 encode이 추가되어 MIL-STD-3005는 STANAG4591에 통합되어[⁶], 미군/NATO의 공통 규격이 되고 있다.

MELPe는 0.6, 1.2, 2.4 kbps의 음성 encode을 서포트해, 2.4 kbps MELPe의 성능은 Federal-Standard 1016(4.8 kbps CELP)보다 우수하다.bit rate이 내리는 것에 따라 성능도 저하하지만, 0.6 kbps MELPe에서도 Federal-Standard 1015(2.4 kbps LPC-10 e)보다 성능이 우수한[⁷].

알고리즘

MELP

MELP의 알고리즘은, 선형 예측 부호(LPC)를 이용한 LPC 보코다에 이하와 같은 확장을 더해 성능의 향상을 실시한 것이다.

Mixed Excitation(혼합 여진)
Aperiodic Pulses(비주기 펄스)
Adaptive Spectral Enhancement(적응 스펙트럼 강조)
Pulse Dispersion Filter(펄스 분산 필터)
Fourier Series Modeling(푸리에 급수 모델링)

인간의 소리는, 성도의 주파수 선택 특성과 음원인 성대등의 소리의 특성이나 유성・무성의 구별로 모델화할 수 있다.유성시, 성대에서는 특정의 주파수(피치 주파수)의 펄스상의 파형의 줄로 나타내지는 버저와 같은 소리가 생성되어 무성시에는 구강, 설, 치, 순등의 조음 기관으로부터 스펙트럼의 넓은 잡음이 생성된다.인간의 소리의 유성・무성의 구별은 단순하지 않고, 유성음에도 주기적인 성분(유성음)과 잡음 성분(무성음)이 섞이고 있는 것도 많다.

Mixed Excitation(혼합 여진)는 이 생각에 근거해, 성대음에 해당하는 여진 신호를 펄스열과 잡음과의 편성으로 모델화하는 방법으로, 그 비율은 주파수 마다 바꾼다.MELP로는 0-500 Hz, 500-1000 Hz, 1000-2000 Hz, 2000-3000 Hz, 3000-4000 Hz의 5개의 밴드로 나누어 유성・무성의 판정을 실시하고 있다.Mixed Excitation의 방법은 LPC 보코다보다 자연스러운 음질을 실현할 수 있어 또 소음에 의한 음질의 저하가 LPC 보코다와 비교해 적다고 하는 특징이 있는[⁸].

Aperiodic Pulses(비주기 펄스)는 무성음과 유성음의 중간 상태로 나타나는 톤성의 일그러짐을 줄이기 위한 정보로, MELP로는 1비트의 플래그로 표현된다.무성음과 유성음의 중간 상태로는 피치 주파수를 비주기적으로 변동시켜, 부자연스러운 일그러짐을 줄이고 있다.

Adaptive Spectral Enhancement(적응 스펙트럼 강조)는 생성되는 음성이 포르만트 주파수의 영역에서 자연스럽게 들리도록(듯이)하기 위한의 것으로, 포르만트 주파수를 강조하도록(듯이) 일한다.

Pulse Dispersion Filter(펄스 분산 필터)는 포르만트를 포함하지 않는 영역에서의 음질의 개선을 행하기 위한 필터이다.

Fourier Series Modeling(푸리에 급수 모델링)은 유성시의 성대음에 해당되는 여진 신호를 푸리에 변환의 계수로 표현하는 방법이다.선형 예측의 잔차신호(여진 신호)에 피치 주기에 동기 한 이산 푸리에 변환을 실시해, 그 계수의 피크치(푸리에 강도, Fourier magnitude)의 열로 모델화한다.푸리에 강도는 벡터 양자화에 의해 encode 된다.단순하고 고정적인 파형을 이용하는데 비교해보다 자연스러운 음성을 생성할 수 있다.

encode은 22.5 ms의 프레임 단위에 실시해, 1 프레임 당 54비트에 encode 된다.음성 전체의 스펙트럼 정보는 10다음 선형 예측 계수로서 추출되어 선스펙트럼대(LSP)로 변환한 후에 멀티 스테이지 벡터 양자화된다.

MELPe

MELPe로는, MELP의 알고리즘에 가세해 잡음 억제의 사전 처리 추가등의 확장을 해 소음이 많은 환경에서의 음질이 향상하고 있다.잡음 억제의 알고리즘으로서는, MMSE-STSA법(minimum mean-square-error short-time spectral amplitude estimator)을 대수 스펙트럼에 확장한 것이 이용되고 있는[⁹].

1.2 kbps MELPe는, 3 프레임을 한묶음의 슈퍼 프레임으로 해, 프레임간의 파라미터의 상관을 이용해 선스펙트럼대등이 벡터 양자화나 암호 해독서에 의해 정리해 encode 되어 비트수의 삭감을 한다.정리해 처리하는 단위가 길어졌기 때문에, 유성시의 피치 주파수의 오차를 줄이기 위해서 음성 신호의 예측장이 MELP보다 129 샘플 길어졌다.처리 프레임수가 증가한 것과 예측장의 변경에 의해 encode 지연 시간은 MELP로의 42.625 ms에서 103.75 ms가 되었다.

0.6 kbps MELPe는, 4 프레임이 슈퍼 프레임으로서 다루어져 각종 파라미터가 한층 더 효율적으로 벡터 양자화된다.양자화의 방법도 복수 준비되어 슈퍼 프레임내의 유성・무성의 패턴에 의해서 변환을 실시하는[¹⁰].유성시의 피치 주파수의 변화를 보간 해 매끄럽게 하는 기능도 강화된[¹⁰].프레임장은 22.5 ms인 채로 변하지 않다.또 푸리에 급수 모델링으로의 푸리에 강도나 비주기 펄스의 정보는 사용되지 않는다.encode 대상이 되는 프레임수가 1.2 kbps MELPe보다 1 프레임 많기 때문에, 0.6 kbps MELPe의 encode 지연 시간은 126.25 ms인[¹⁰].

압축율

MELPe는 압축율이 매우 높다.같은 8 kHz의 샘플링 주파수의 음성 입력에 대해, 64 kbit/sμ-Law G. 711을 기준으로 한 MELPe의 압축비와 프레임장등의 파라미터를 정리하면 이하의 겉(표)와 같이 된다.

bit rate	G.711에 대한 압축비	프레임장	프레임 주기
2400 bps	26.7배	54비트	22.5 ms
1200 bps	53.3배	54비트	67.5 ms
600 bps	106.7배	54비트	90 ms

많은 저bit rate 음성 encode 방식과 같이, 압축율이 높아지는에 따라서 음질은 저하해, 노이즈등에 의한 패킷 로스가 발생했을 경우의 영향도 커진다.

역사

MELP의 기본적인 생각은, 당시 조지아 공과대학의 학생이었던 알란・마크레이(Alan McCree)가 1992년부터 1995년에 걸쳐 발표한[⁸][¹¹][¹²].그 후 애틀랜타 시그널 프로세서(Atlanta Signal Processors Inc., 2001년에 폴리 컴사가 매수)에 상업용으로 라이센스 되어 텍사스 인스트루먼트(Texas Instruments Inc.)(이)가 중심이 되어 2.4 kbps MELP의 인플리맨트를 했다.이것이 MIL-STD-3005가 되었다.

1.2 kbps/2. 4 kbps MELPe는 시그널 컴(SignalCom Inc., 후에 마이크로소프트에 매수)가 중심이 되어 1998년경부터 2001년경에 걸쳐 개발되었다.잡음 억제 프론트엔드의 알고리즘에는 AT&T의 기술이 사용되었다.이것은 NATO의 STANAG4591으로서 2002년에 규격화되었다.

0.6 kbps MELPe의 사양은 프랑스의 타레스・그룹(Thales Group)에 의해 2005년에 STANAG4591에 추가된[¹⁰].

지적 재산권

MELPe와 그 파생 코덱에 대해서, 이하의 기업을 포함한 몇개의 기업이 지적 재산권을 소유하고 있다.텍사스 인스트루먼트(2.4 kbps 기본 알고리즘), 마이크로소프트(1.2 kbps 알고리즘), AT&T(잡음 억제) 등이다.

MELP나 MELPe는 미국 국방총성이나 NATO가 중심이 되어 연구・개발의 원조를 실시해 왔기 때문에, 미국 국방총성이나 NATO 전용의 어플리케이션만 로열티는 무상이 되고 있다.

각주

^ ^a ^b L. Supplee, R. Cohn, J. Collura, A. McCree. MELP: The New Federal Standard at 2400 Bps. IEEE icassp, vol.2, pp.1591. 1997.
^ ^a ^b J. S. Collura. Noise Pre-Processing for Tactical Secure Voice Communications. Tactical Mobile Communications, RTO Meeting Proceedings 26. NATO RTO. Nov. 1999. ISBN 92-837-1022-3
^ Department of Defense. MIL-STD-3005 Analog-to-Digital Conversion of Voice by 2,400 bit/second Mixed Excitation Linear Prediction (MELP). United States Department of Defense. Dec. 1999.
^ J.S. Collura, D.F. Brandt, D.J. Rahikka. The 1.2kbps/2.4kbps MELP speech coding suite with integrated noise pre-processing. IEEE Mil. Commun.Conf. Proc., Vol.2, pp.1449-1453. 1999.
^ M. D. Street, J.S. Collura. Interoperable Voice Communications: Test and Selection of STANAG 4591. RTO-MP-065. NATO RTO. 2001.
^ Department of Defense. MIL-STD-3005 NOTICE 1. United States Department of Defense. Feb. 2008.
^ J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. pp.346. Springer, 2007. ISBN 978-3540491255.
^ ^a ^b A. McCree, T.P. Barnwell III. A 2400 bps mixed excitation LPC vocoder. Proc. IEEE Conf. Military Communications, vol.1, pp.381-384. 1992.
^ J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. pp.60. Springer, 2005. ISBN 978-3540240396.
^ ^a ^b ^c ^d G. Guilmin, F. Capman, B. Ravera, F. Chartier. New NATO STANAG narrow band voice coder at 600 bits/s. Proc. IEEE Int. Conf. Acoust. Speech Signal Process, pp.689-693. 2006.
^ A. McCree, T.P. Barnwell III. Improving the performance of amixed excitation LPC vocoder in acoustic noise. Proc. IEEE Int. Conf. Acoust. Speech Signal Processing, pp.137-140. 1992.
^ A. McCree, T.P. Barnwell III, A mixed excitation LPC vocoder model for low bit rate speech coding, IEEE Trans. Speech Audio Process. 3(4), pp.242-250. 1995.

참고 문헌

J. Benesty, M. M. Sondhi, Y. Huang (ed). Springer Handbook of Speech Processing. Springer, 2007. ISBN 978-3540491255.
J. Benesty, S. Makino, J. Chen (ed). Speech Enhancement. Springer, 2005. ISBN 978-3540240396.
L. Supplee, R. Cohn, J. Collura, A. McCree. MELP: The New Federal Standard at 2400 Bps. IEEE icassp, vol.2, pp.1591. 1997.
J. S. Collura. Noise Pre-Processing for Tactical Secure Voice Communications. Tactical Mobile Communications, RTO-MP-26. NATO RTO. Nov. 1999. ISBN 92-837-1022-3
J.S. Collura, D.F. Brandt, D.J. Rahikka. The 1.2kbps/2.4 kbps MELP speech coding suite with integrated noise pre-processing. IEEE Mil. Commun.Conf. Proc., Vol.2, pp.1449-1453. 1999.
M. D. Street, J.S. Collura. Interoperable Voice Communications: Test and Selection of STANAG 4591. RTO-MP-065. NATO RTO. 2001.
Department of Defense. MIL-STD-3005 Analog-to-Digital Conversion of Voice by 2,400 bit/second Mixed Excitation Linear Prediction (MELP). United States Department of Defense. Dec. 1999.
Department of Defense. MIL-STD-3005 NOTICE 1. United States Department of Defense. Feb. 2008.
NATO. STANAG 4591 C3(EDITION 1), 600 BIT/S, 1200 BIT/S AND 2400 BIT/S NATO INTEROPERABLE NARROW BAND VOICE CODER. NATO Standardization Agency. 3, Oct. 2008.

셀프피디아

일본 위키피디아 번역

2017년 2월 19일 일요일