AI 썸네일형 리스트형 NeXt_TDNN - feature Chapter 1. 음성 인식을 위한 특징 추출 과정현대 음성 인식 시스템은 사람의 말을 단순히 녹음된 파형으로 처리하지 않습니다.기계가 이해할 수 있는 정보로 바꾸기 위해, 음성 파형은 여러 단계를 거쳐 고차원적인 특성(feature)으로 변환됩니다.이 절에서는 그 대표적인 절차인 Log-Mel Spectrogram 추출 과정을 순서대로 설명합니다.1. Pre-emphasis: 고주파 강조를 통한 자음 명료화사람의 목소리는 일반적으로 저주파(낮은 소리)가 강하게 포함되어 있으며, 고주파(높은 소리)는 상대적으로 약한 편입니다.그러나 자음이나 미세한 발음 구분은 주로 고주파 대역에 위치하므로, 이를 살려주는 것이 인식 성능에 도움이 됩니다.Pre-emphasis는 바로 이러한 고주파를 강조하는 기법입니다.. 더보기 ANN, DNN, RNN, TDNN ANN(Artificial Neural Network)인공신경망사람의 신경망 원리와 구조를 모방하여 만든 기계학습 알고리즘하나 이상의 히든 레이어층을 가지고 있는 모든 Neural Network 를 포함하는 대전제인간의 뇌에서 뉴런들이 어떤 신호, 자극 등을 받고, 그 자극이 어떠한 임계값(threshold)을 넘어서면 결과 신호를 전달하는 과정에서 착안한 것.인공신경망에서 자극, 신호는 Input Data 이며, 임계값은 가중치(Weight), 자극에 의해 어떤 행동을 하는 것은 Output Data 로 비유할 수 있다. 신경망은 다수의 입력 데이터를 받는 입력층과결과의 출력을 담당하는 출력층,이 둘 사이에 여러 노드로 연결된 여러개의 히든 레이어들이 존재한다. 레이어층에는 활성화함수룰 이용하여 최적의.. 더보기 ASSOCIATE 5. [ 데이터프레임 확인하기 ]데이터 불러오기 1. 컬럼(column) : 열 레이블에 대한 정보를 제공2. 인덱스(index) : 행 레이블에 대한 정보를 제공3. 생성된 데이터 프레임의 행과 열의 수를 제공 위 예시 코드처럼 데이터 데이터프레임 이름만 기입해도 전체 데이터가 출력되지만head, tail 메소드를 활용해서 일부만 출력되게 하는 것도 가능하다 인자가 없으면 5줄 을 제공하고, 인자값을 통해 n=양수 설정할 경우 설정된 수 만큼의 정보를 head 는 제일 위 기준으로 하위 데이터를, tail 은 제일 아래 기준으로 상위 데이터를 제공을 한다데이터프레임의 기본 정보 확인하기 판다스는 데이터 분석을 위한 라이브러리로 기본적인 메서드와 속성(attribute)을 활용하여 통계 정보를 확인할 수 있.. 더보기 ASSOCIATE 4. [ 파이썬 데이터 분석 라이브러리 활용하기 ]파이썬 대표적 데이터 분석 라이브러리Numpy수치 데이터 다루는데 활용n차원 행렬 자료 구조인 np.array 를 사용하여 배열이나 행렬 계산주로 np 로 별칭 사용 (라이브러리 사용 선언시 import numpy as np 로 선언)Pandas데이터 배열이나 테이블 형태의 데이터(tabular ata)등의 자료구조 처리주로 시리즈(series)와 데이터프레임(dataframe) 구조를 사용행(row)과 열(column)로 구성된 2차원데이터 테이블주로 pd 로 별칭 사용 Numpy 사용해보기파이썬의 리스트나 배열은 요소에 문자열이 복합적으로 있을 경우 출력에 한해서 전 '문자열' 취급을 한다. 그래서 마지막 출력 내용을 보면 1 과 2 는 숫자임에도 불구하.. 더보기 NeXt_TDNN --main-- 입력시 mode 값과 config 파일을 설정해주면서 모델을 돌릴 때 필요한 파일 연동 training 모드mode 로 train 을 줬을 때 동작 code_save_time = datetime.datetime.now().strftime("%Y%m%d%H%M%S")모델 실험시 해당 날짜를 구분하여 그 때의 상태값이나 결과를 확인하기 위해 날짜 저장train | test | test_all 함수모드 입력에 맞춰서 함수 호출def train(config, code_save_time): # seed os.environ['CUBLAS_WORKSPACE_CONFIG'] = ':4096:8' seed_everything(config.SEED, workers=True) if ha.. 더보기 화자 인식 모델 화자 인식 모델- 이 목소리가 등록된 사람과 같은 사람인가? 를 묻는 1:1 비교 기반의 인증 시스템(feat.GPT4o)1. 개념적 구분화자 인식 VS 화자 검증화자 인식누구 인지 찾는것 (1:N)ex) 이 사람 누구야?화자 검증같은 사람인지 확인 하는 것ex) 이 목소리 XXX 맞아?2. 전체 시스템 구조 (파이프라인)입력 음성 전처리 (MFCC, Mel 등) 임베딩 추출 (x-vector 등) 벡터 비교 (cosine, PLDA) Same or Not? 3. 핵심 구성 요소입력 전처리음성 파일을 Mel-Spectrogram, MFCC, FIlterbank 등의 특징으로 변환모델이 받아들이기 쉬운 수치 데이터로 바꾸는 단계특징 추출딥러딩 모델 (TDNN, ECAPA-TDNN, ResNet, Next-.. 더보기 ASSOCIATE 3. AI 모델링에 Python 을 사용하는 이유AI 패키지, 라이브러리를 쉽게 활용 가능데이터 분석, 전처리를 보다 직관적이고 쉽게 처리 가능AI 알고리즘 활용 호환(Tensorflos, Kera, ...)[1] 파이썬 기본 문법 데이터 관련 함수 Indexing 변수 + [ ], index 번호는 0 번 부터 시작ex) 변수[1], 변수1[변수2], ... string = "Hello World" string[0] = 'H'string[1] = 'e'string[2] = 'l'string[3] = 'l'string[4] = 'o'string[5] = ' 'string[6] = 'W'string[7] = 'o'string[8] = 'r'string[9] = 'l'string[10] = 'd' Slicing변.. 더보기 ASSOCIATE 2. 학습목표1. 4차 산업혁명 환경에서 코딩이 가지는 중요성에 대해 이해하기2. AI 모델링 과정에 코딩을 활용하면 어떤 장점이 있는지 이해하기3. AI 관련 코딩을 도와줄 수 있는 라이브러리에 대해 이해하기[1] 4차 산업혁명과 코딩 4차 산업혁면 시대 인재가 가져야 될 4C 역량협업능력 (Collaboration)소통능력 (Communication)비판적사고 (Critical thinking)창의력 (Creativity)[2] AI 모델링 방법 No-Coding (기존에 개발된 AI 모델을 사용)AIDUez (KT)Azure ML Studio (MicroSoft)AutoML (Google) Coding프로그래밍언어를 통해 전처리, 모델 설계, 학습 및 평가 등 모든 과정을 직접 구현 및 제어[3] 코딩을.. 더보기 이전 1 2 다음