Try NVIDIA NIM APIs

Explore

Models

Blueprints

GPUs

Docs

Your Privacy Choices

Contact

Search Results

Searching for: Multi-modal

Sort By

Publisher

Use Case

NIM Type

Blueprint Type

Launchable

Sorting by Most Recent

nvidia nemotron-nano-12b-v2-vl

Nemotron Nano 12B v2 VL enables multi-image and video understanding, along with visual Q&A and summarization capabilities.

language generation chat Image-to-Text vision assistant visual question answering

meta llama-guard-4-12b

Multi-modal model to classify safety for input prompts as well output responses.

LLM Multimodal Safety Content Safety Guardrail Content Moderator

nvidia Multi-LLM NIM

Use the multi-LLM compatible NIM container to deploy a broad range of LLMs from Hugging Face.

Blueprint NVIDIA AI

nvidia llama-3.1-nemotron-nano-vl-8b-v1

Multi-modal vision-language model that understands text/img and creates informative responses

doc intelligence chat multiple image understanding OCR

nvidia AI Weather Analytics with Earth-2

Develop AI powered weather analysis and forecasting application visualizing multi-layered geospatial data.

Blueprint Climate Science Enterprise Weather Simulation AI Weather Prediction NVIDIA AI Earth-2

nvidia Test Multi-Robot Fleets for Industrial Automation

Simulate, test, and optimize physical AI and robotic fleets at scale in industrial digital twins before real-world deployment.

industrial NVIDIA Omniverse Blueprint simulation Enterprise omniverse blueprint

nvidia bevformer

Advanced transformer for multi-frame bird's-eye-view 3D perception in autonomous driving.

autonomous vehicles bev automotive perception

nvidia canary-1b-asr

Multi-lingual model supporting speech-to-text recognition and translation.

Automatic Speech Recognition Automatic Speech Translation NVIDIA NIM NVIDIA Riva

nvidia PDF to Podcast

Transform PDFs into AI podcasts for engaging on-the-go audio content.

blueprint Multi-modal Launchable Text-to-Speech Conversational AI PDF-to-Podcast NVIDIA AI AI Agent

nvidia cosmos-nemotron-34b

Multi-modal vision-language model that understands text/img/video and creates informative responses

VLM Vision language model image caption image to text

abacusai dracarys-llama-3.1-70b-instruct

Fine-tuned Llama 3.1 70B model for code generation, summarization, and multi-language tasks.

chat Code Generation Text-to-Text

nvidia vila

Multi-modal vision-language model that understands text/img/video and creates informative responses

VLM Vision language model image caption image to text

baai bge-m3

Embedding model for text retrieval tasks, excelling in dense, multi-vector, and sparse retrieval.

Embeddings Retrieval Augmented Generation Text-to-Embedding