[Audio processing] Audio data feature 추출 이해하기 (2)
·
Audio
Audio data feature extraction을 위한 대표 방법 중 하나인 MFCC에서, 푸리에 변환을 통해 스펙트럼을 얻는 과정까지 살펴보았다. 이제 그 다음 단계인 Mel spectrum부터 차근차근 알아보자.~ 입력 신호를 Mel scale로 변환 : Mel filter bank 적용 로그를 취하여 로그 Mel spectrogram 얻기 DCT 수행 MFCC 계수 추출 Audio 신호는 시간에 따른 음압, 즉 time-domain의 표현이다. 여기에 FFT를 적용하여 frequency-domain의 표현이 가능해지며, 이를 spectrum이라고 했다. spectrum의 강점은 주파수의 대역별 분석이 용이하다는 것이다. 주파수 대역별로 가진 고유의 특징을 추출할 수 있다. 그리고 그 정보를 추..
[Audio processing] Audio data feature 추출 이해하기 (1)
·
Audio
Feature extraction 오디오 데이터 특징 추출은 오디오 신호에서 유용한 정보를 추출하는 과정이다. 오디오 데이터 자체가 무겁고 복잡하기 때문에 주요 특징들을 추출하여 데이터를 다루게 된다. (고차원성, 데이터 분석, 차원 감소, 일반화 등등) 그리고 이러한 오디오 데이터 특징 추출의 가장 대표적인 기법이 MFCC(Mel-Frequency cepstral coefficients)이다. MFCC(Mel-Frequency Cepstral Conefficient) Audio 신호 처리에 쓰이는 특징값(Feature) MFCC는 다음과 같은 과정으로 일어난다. 1. 프레임 분할(Frame Segmentation) : 오디오 신호를 일정 시간 간격의 작은 프레임으로 분할 -> 시간에 따른 변화를 추적 ..
[Audio processing] Audio data 이해하기
·
Audio
Audio data - 소리를 디지털 형태로 표현한 정보, 시퀀스 데이터 - 일련의 디지털 샘플로 구성, 각 샘플은 일정 시간 간격으로 측정된 소리의 진폭을 나타낸다. 음성 데이터는 간단하게 아래와 같은 특징을 가진다. 1. 시간적인 특성 : 시간에 따라 소리의 진폭이나 주파수가 변화 2. 주파수 특성 : 다양한 주파수 구성 요소로 구성, 푸리에 변환과 같은 기법으로 주파수 영역에서 분석 3. 볼륨 및 에너지 : 소리의 강도나 크기를 나타내는 볼륨 또는 에너지를 포함, 강도 조절, 소리의 에너지 분석 4. 채널 : 단일 채널(모노) 또는 여러 채널(스테레오, 다중 채널)로 구성될 수 있음 5. 비트 깊이와 샘플링 레이트 : 디지털화를 위함 오디오 데이터는 주파수 범위 내의 소리를 인식하고 기록하기 위해 ..