Audio data
- 소리를 디지털 형태로 표현한 정보, 시퀀스 데이터
- 일련의 디지털 샘플로 구성, 각 샘플은 일정 시간 간격으로 측정된 소리의 진폭을 나타낸다.
음성 데이터는 간단하게 아래와 같은 특징을 가진다.
1. 시간적인 특성 : 시간에 따라 소리의 진폭이나 주파수가 변화
2. 주파수 특성 : 다양한 주파수 구성 요소로 구성, 푸리에 변환과 같은 기법으로 주파수 영역에서 분석
3. 볼륨 및 에너지 : 소리의 강도나 크기를 나타내는 볼륨 또는 에너지를 포함, 강도 조절, 소리의 에너지 분석
4. 채널 : 단일 채널(모노) 또는 여러 채널(스테레오, 다중 채널)로 구성될 수 있음
5. 비트 깊이와 샘플링 레이트 : 디지털화를 위함
오디오 데이터는 주파수 범위 내의 소리를 인식하고 기록하기 위해
아날로그 신호를 디지털 형식으로 변환하는 과정(ADC)을 거치게 된다.
이 과정을 통해 연속적인 소리(아날로그 신호) 가 디지털 형태로 표현되며,
컴퓨터나 기타 디지털 장치에서 처리할 수 있게 된다.
Analog Digital Conversion(ADC)
아날로그 신호를 디지털 신호로 변환하는 과정
우리가 생활하면서 듣는 소리들은 주로 아날로그 신호이며 (목소리, 음악, 자연의 소리)
이러한 아날로그 신호를 컴퓨터나 장치에서 처리하기 위해 디지털 신호로 변환해야 하는 것이다.
아날로그 신호는 시간에 따라 연속적으로 변하는 값으로, 주파수, 진폭 등이 포함될 수 있다.
반면, 디지털 신호는 이산적인 값으로 표현되며 일련의 0과 1로 이루어진 디지털 형태이다.
ADC는 Sampling, Quantization 이 두 가지 과정을 거치게 된다.
1. Sampling (샘플링)
아날로그 신호를 디지털 신호로 변환하기 위해 주어진 시간 간격마다 입력 신호의 값을 측정하는 과정이다.
시간 축을 일정한 간격으로 나누어 각 구간에서 신호를 측정한다.
sampling rate는 이 샘플링 간격을 결정하는 매개변수로, 뒤에서 자세히 언급하겠지만
높은 sampling rate일 수록 많은 샘플이 수집되어 더 정확한 디지털 표현을 얻을 수 있다.
2. Quantization (양자화)
샘플링된 값의 연속적인 범위를 한정된 비트 수로 표현한다.
"한정된 비트수"로 표현한다는 말 자체가, sampling에서 얻은 모든 값들이 디지털 값으로 표현할 수 없다는 의미이다.
예를 들면, 8비트 양자화는 256가지(2^8)를 사용하여 아날로그 신호를 디지털 값으로 표현한다.
이 비트 수는 ADC의 해상도를 나타내며, 비트 수가 높을수록 더 많은 값을 표현할 수 있다.
이 256개의 값 중 하나로 sampling 값을 할당해야 하는데, 이 과정에서 양자화 오차가 발생하게 된다.
(양자화 오차 -> 실제 아날로그 신호와 양자화된 디지털 값 사이의 차이)
위와 같은 예시로 8비트 ADC를 사용하여 아날로그 신호를 디지털로 변환한다고 했을 때,
이는 0부터 255까지의 값을 표현할 수 있으며, 아날로그 입력 값은 해당 값의 가장 가까운 정수로 근사화된다.
만약 아날로그 입력 값이 0.6V인데, ADC가 이를 8비트로 양자화하여 0V로 근사화되면, 이 사이에 오차가 발생하게 되는 것이다.
양자화 오차는 sampling rate와 양자화 비트 수에 영향을 받으며, 오차가 클수록 신호의 정확도가 감소한다.
waveform
파형은 아날로그 신호를 나타내는 데 사용한다.
아날로그 신호는 시간에 따라 연속적으로 변화하므로, x축이 시간임을 알 수 있다.
그리고 시간은 연속적이며 무한히 많은 지점을 포함하므로,
소리의 진폭은 모든 시점에 대해 기록될 수가 없어 샘플링을 필요로 한다.
그 시간 지점에서의 진폭이 y축에 나타나며, waveform 상에서 해당 시간의 위치에 따라 표시된다.
waveform은 음성 신호를 시각적으로 분석하기 위해 사용되는 것이다.
음성 파일을 시각화하여 파형을 보면 음성의 강약, 주파수, 발음, 소리의 시작과 끝을 쉽게 파악할 수 있다.
ex) 음성 파일에서 특정 부분을 자르거나, 노이즈 제거, 특정 구간 강조 등에 활용
앞에서 본 ADC 과정에서 샘플링 주파수와 비트 깊이 등의 요소를 결정하여 디지털 데이터로 저장하게 된다.
digital waveform is an analog signal with discrete values (이산 값을 갖는 아날로그 신호)
sampling rate(Hz)
ADC 변환에 사용되는 매개변수 중 하나
초당 샘플의 수를 의미
일반적으로 sampling rate는 Hz(헤르츠) 단위로 표시된다.
ex) CD 품질의 오디오는 44.1kHz로 샘플링되는데, 이는 1초 동안 44,100개의 샘플을 사용하여 아날로그 신호를 디지털 신호로 변환한다는 것을 의미한다.
일반적인 sampling rate는 22,050Hz, 32,000Hz, 44,100Hz, 48,000Hz 및 96,000Hz가 포함된다.
높은 sampling rate는 더 나은 음질을 제공하지만,
더 많은 저장 공간을 필요로하며, 처리 및 전송에 더 많은 리소스를 필요로 한다.
(이퀄라이저, 리버브)
Nyquist Sampling Theorem
나이퀴스트 샘플링 이론
sampling rate가 아날로그 신호의 최대 주파수의 두 배보다 커야 한다는 원리
(가장 빠른 주파수의 2배 이상에 해당하는 빈도로 샘플링)
아날로그 신호는 다양한 주파수로 구성된다.
가장 간단한 형태는 하나의 사인파이며, 실제 아날로그 신호는 여러 주파수의 구성 요소로 이루어진 복잡한 구조이다.
이때, 아날로그 신호에서 가장 높은 주파수 성분이 해당 신호의 대역폭을 결정하게 되는 것이다.
최대 주파수 성분이 기준이 되는 이유는
만약 sampling rate가 아날로그 신호의 최대 주파수보다 낮다면, 고주파수 구성 요소가 누락되거나 왜곡될 수 있기 때문이다. 정보의 손실을 방지하고 신호를 완벽하게 복원하기 위해 최대 주파수의 두 배 이상의 sampling rate를 사용하게 된다.
예를들어, 아날로그 신호의 최대 주파수가 60Hz라면, 이를 완벽하게 샘플링하기 위해서
60Hz의 두 배인 120Hz 이상의 sampling rate를 사용해야 한다.
Bit depth (비트의 길이)
ADC 과정의 양자화에서 사용되는 매개변수 - Quantization을 얼마나 세밀하게 할 것인가
음성 처리에서 사용되는 16비트 오디오는 각 샘플이 16비트로 표현되며,
총 2^16 = 65,536가지의 서로 다른 값을 나타낼 수 있다.
비트의 길이는 오디오의 동적 범위와 품질을 결정하는 중요한 요소이다.
'Audio' 카테고리의 다른 글
[Audio processing] Audio data feature 추출 이해하기 (2) (0) | 2024.02.10 |
---|---|
[Audio processing] Audio data feature 추출 이해하기 (1) (0) | 2024.02.10 |