AI/NeXt-TDNN 썸네일형 리스트형 NeXt_TDNN - feature Chapter 1. 음성 인식을 위한 특징 추출 과정현대 음성 인식 시스템은 사람의 말을 단순히 녹음된 파형으로 처리하지 않습니다.기계가 이해할 수 있는 정보로 바꾸기 위해, 음성 파형은 여러 단계를 거쳐 고차원적인 특성(feature)으로 변환됩니다.이 절에서는 그 대표적인 절차인 Log-Mel Spectrogram 추출 과정을 순서대로 설명합니다.1. Pre-emphasis: 고주파 강조를 통한 자음 명료화사람의 목소리는 일반적으로 저주파(낮은 소리)가 강하게 포함되어 있으며, 고주파(높은 소리)는 상대적으로 약한 편입니다.그러나 자음이나 미세한 발음 구분은 주로 고주파 대역에 위치하므로, 이를 살려주는 것이 인식 성능에 도움이 됩니다.Pre-emphasis는 바로 이러한 고주파를 강조하는 기법입니다.. 더보기 ANN, DNN, RNN, TDNN ANN(Artificial Neural Network)인공신경망사람의 신경망 원리와 구조를 모방하여 만든 기계학습 알고리즘하나 이상의 히든 레이어층을 가지고 있는 모든 Neural Network 를 포함하는 대전제인간의 뇌에서 뉴런들이 어떤 신호, 자극 등을 받고, 그 자극이 어떠한 임계값(threshold)을 넘어서면 결과 신호를 전달하는 과정에서 착안한 것.인공신경망에서 자극, 신호는 Input Data 이며, 임계값은 가중치(Weight), 자극에 의해 어떤 행동을 하는 것은 Output Data 로 비유할 수 있다. 신경망은 다수의 입력 데이터를 받는 입력층과결과의 출력을 담당하는 출력층,이 둘 사이에 여러 노드로 연결된 여러개의 히든 레이어들이 존재한다. 레이어층에는 활성화함수룰 이용하여 최적의.. 더보기 NeXt_TDNN --main-- 입력시 mode 값과 config 파일을 설정해주면서 모델을 돌릴 때 필요한 파일 연동 training 모드mode 로 train 을 줬을 때 동작 code_save_time = datetime.datetime.now().strftime("%Y%m%d%H%M%S")모델 실험시 해당 날짜를 구분하여 그 때의 상태값이나 결과를 확인하기 위해 날짜 저장train | test | test_all 함수모드 입력에 맞춰서 함수 호출def train(config, code_save_time): # seed os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8' seed_everything(config.SEED, workers=True) if ha.. 더보기 화자 인식 모델 화자 인식 모델- 이 목소리가 등록된 사람과 같은 사람인가? 를 묻는 1:1 비교 기반의 인증 시스템(feat.GPT4o)1. 개념적 구분화자 인식 VS 화자 검증화자 인식누구 인지 찾는것 (1:N)ex) 이 사람 누구야?화자 검증같은 사람인지 확인 하는 것ex) 이 목소리 XXX 맞아?2. 전체 시스템 구조 (파이프라인)입력 음성 전처리 (MFCC, Mel 등) 임베딩 추출 (x-vector 등) 벡터 비교 (cosine, PLDA) Same or Not? 3. 핵심 구성 요소입력 전처리음성 파일을 Mel-Spectrogram, MFCC, FIlterbank 등의 특징으로 변환모델이 받아들이기 쉬운 수치 데이터로 바꾸는 단계특징 추출딥러딩 모델 (TDNN, ECAPA-TDNN, ResNet, Next-.. 더보기 이전 1 다음