AI Engineering Topic/AI 모델 배포

Whisper

Young_Metal 2023. 3. 18. 16:55

모든 데이터에서 최고의 성능을 뽑아낸다
Weakly supervised ASR : 음성 데이터 68만
96개 언어의 음성인식 지원, x-> en 지원
Self training 없이 결과를 달성

Whisper : 음성인식의 최종목적은


Out of Distribution data
LibriSpeech is like ImageNet, but for Speech
-Indomain 데이터로 관측
but Whisper는 Libri unseen으로 정확도를 높이겠다

인터넷에서 전사가 있는 데이터를 구축했다
다양한 화자, 환경

인식기가 만든거 같은 데이터는 버림
언어 검출기를 개발 ex 한국인이 한국어가 아닌 영어를 말하는 걸 검출해야한다

Hallucination 이 나온다.
한국어 8000시간 : low performance, low-resource languages, no speaker recognition

realtime이 아닌 끝나야 wav로 인식해서 학습