Explore Speech Models | Try NVIDIA NIM APIs

Deploy Models Now with NVIDIA NIM

Optimized inference for the world’s leading models

Free serverless APIs for development

Self-Host on your GPU infrastructure

Continuous vulnerability fixes

Discover Models Blueprints GPUs

Docs

Forums

models

Reasoning Vision Visual Design Retrieval Speech Biology Simulation Climate & Weather Safety & Moderation

industries

Automotive Gaming Healthcare Industrial Robotics

Speech

Automatic Speech Recognition (ASR)

Connect generative AI models to speech by transcribing spoken audio to text.

Convert Text to Speech (TTS)

Voice generative AI models by converting written text to spoken audio.

Run Anywhere

nvidia magpie-tts-multilingual

Natural and expressive voices in multiple languages. For voice agents and brand ambassadors.

nvidia nim nvidia riva tts multilingual text-to-speech

Run Anywhere

nvidia fastpitch-hifigan-tts

Expressive and engaging English voices for Q&A assistants, brand ambassadors, and service robots

nvidia nim text-to-speech

Speech Enhancement

Speech enhancing AI models for common voice degradations.

Run Anywhere

nvidia studiovoice

Enhance speech by correcting common audio degradations to create studio quality speech output.

digital human nvidia maxine run on rtx speech enhancement speech-to-speech

Deploy Models Now with NVIDIA NIM

Speech

Automatic Speech Recognition (ASR)

nvidia parakeet-1.1b-rnnt-multilingual-asr

nvidia parakeet-ctc-1.1b-asr

nvidia parakeet-ctc-0.6b-asr

nvidia canary-1b-asr

openai whisper-large-v3

nvidia canary-0.6b-turbo-asr

nvidia conformer-ctc-asr

Convert Text to Speech (TTS)

nvidia magpie-tts-multilingual

nvidia fastpitch-hifigan-tts

Neural Machine Translation (NMT) & Audio Speech Translation (AST)

nvidia megatron-1b-nmt

nvidia canary-1b-asr

nvidia canary-0.6b-turbo-asr

openai whisper-large-v3

Speech Enhancement

nvidia studiovoice