Machine Learning
-
MFCC(Mel-Frequency Cepstral Coefficient) 이해하기Machine Learning/Audio Feature 2019. 7. 12. 03:57
이 글은 음성/음악 등 오디오 신호 처리 분야에서 널리 쓰이는 특징값(Feature) 중 하나인 MFCC(Mel-Frequency Cepstral Coefficient)에 대해 정리한 글입니다. 알고리즘 구현보다는 MFCC의 전반적인 이해와 실제 활용에 초점을 맞춰 정리했습니다 :) MFCC란? MFCC는 오디오 신호에서 추출할 수 있는 feature로, 소리의 고유한 특징을 나타내는 수치입니다. 주로 음성 인식, 화자 인식, 음성 합성, 음악 장르 분류 등 오디오 도메인의 문제를 해결하는 데 사용됩니다. 먼저 MFCC를 쉽게 이해하기 위해 MFCC의 실제 사용 예시를 들어보겠습니다. 1) 화자 검증(Speaker Verification) 화자 검증이란 화자 인식(Speaker Recognition)의 ..
-
RNN(Recurrent Neural Network) 이해하기Machine Learning/Neural Network 2019. 7. 9. 01:48
문장에서 어떤 단어를 번역할 때 우리는 그 단어의 이전 문맥을 고려합니다. 문맥을 고려하지 않으면 여러 뜻을 가진 단어의 경우 엉뚱하게 번역할 가능성이 큽니다. 이처럼 연속된 데이터의 특징을 이해해야 해결할 수 있는 문제들이 있습니다. 연속된 데이터, 즉 순차 데이터(Sequential data)를 다룰 수 있게 설계된 신경망이 순환 신경망(RNN : Recurrent Neural Network)입니다. 주가 예측, AI 작곡/작사, 기계 번역, 음성 인식 등 순차 데이터를 다루는 문제가 RNN의 주요 과제입니다. RNN의 구조 RNN은 과거의 정보를 현재에 반영해 학습하도록 설계되었습니다. 이 컨셉을 통해 시간 순서로 나열된 데이터를 학습합니다. 이전 상태로부터 전달된 값을 히든 스테이트(hidden ..