음성모델1 MARS5: 혁신적인 음성을 지원하는 New 음성 모델 소개MARS5는 CAMB.AI에서 개발한 최첨단 TTS 모델로, 두 단계의 AR-NAR 파이프라인을 통해 동작한다. 아주 적은 시간인 5초 오디오와 텍스트 조각만으로도 다양한 프로소디 시나리오에서 높은 품질의 음성을 생성할 수 있다. 해당 모델은 텍스트와 참조 오디오를 입력 받아 다양한 운율 흐름에서도 자연스러운 음성을 생성할 수 있다. 특히 스포츠 해설이나 애니메이션 같은 프로소디가 어려운 시나리오에서도 뛰어난 성능을 보인다. MARS5의 독특한 점은 NAR 컴포넌트의 혁신적인 설계로, 자세한 내용은 Architecture문서에서 확인할 수 있다.MARS5는 기존의 TTS 모델들과 비교하여 혁신적인 특징을 갖추고 있다. 기존 모델들은 주로 단순한 텍스트-음성(TTS) 변환에 중점을 두었던 반면, MAR.. 2024. 6. 17. 이전 1 다음 반응형