Try NVIDIA NIM APIs

⌘KCtrl+K

Your Privacy Choices

Contact

Explore

⌘KCtrl+K

Search Results

Searching for: Multimodal

Sort By

Publisher

Use Case

NIM Type

Blueprint Type

GPU Types

Launchable

Sorting by Most Recent

mistralai mistral-large-3-675b-instruct-2512

A state-of-the-art general purpose MoE VLM ideal for chat, agentic and instruction based use cases.

language generation chat Image-to-Text multimodal agentic

mistralai ministral-14b-instruct-2512

A general purpose VLM ideal for chat and instruction based use cases

language generation SLM chat Image-to-Text multimodal

cyborg Cyborg Enterprise RAG

Securely extract, embed, and index multimodal data with encryption in-use for fast, accurate semantic search.

NIM Launchable Blueprint Retrieval-Augmented Generation NeMo Retriever

black-forest-labs FLUX.1-Kontext-dev

FLUX.1 Kontext is a multimodal model that enables in-context image generation and editing.

Image Generation Text-to-Image Run-on-RTX

meta llama-guard-4-12b

Multi-modal model to classify safety for input prompts as well output responses.

LLM Multimodal Safety Content Safety Guardrail Content Moderator

nvidia llama-3.2-nemoretriever-1b-vlm-embed-v1

Multimodal question-answer retrieval representing user queries as text and documents as images.

nemo retriever embedding Retrieval Augmented Generation Text-to-Embedding

mistralai mistral-small-3.1-24b-instruct-2503

Efficient multimodal model excelling at multilingual tasks, image understanding, and fast-responses

language generation chat multimodal image understanding

mistralai mistral-medium-3-instruct

Powerful, multimodal language model designed for enterprise applications, including software development, data analysis, and reasoning.

language generation chat Image-to-Text multimodal visual question answering

meta llama-4-maverick-17b-128e-instruct

A general purpose multimodal, multilingual 128 MoE model with 17B parameters.

language generation chat Image-to-Text vision assistant visual question answering

meta llama-4-scout-17b-16e-instruct

A multimodal, multilingual 16 MoE model with 17B parameters.

language generation chat Image-to-Text vision assistant visual question answering

nvidia Build an AI Agent for Enterprise Research

Build a custom enterprise research assistant powered by state-of-the-art models that process and synthesize multimodal data, enabling reasoning, planning, and refinement to generate comprehensive reports.

NIM Launchable Llama Nemotron Reasoning Blueprint Enterprise Retrieval-Augmented Generation NVIDIA AI NeMo Retriever

google gemma-3-27b-it

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

Vision Assistant chat Visual Question Answering Language Generation Image-to-Text

microsoft phi-4-multimodal-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from image and audio inputs.

Speech Recognition Visual QA chat Language Generation Image-to-Text Chart and Table Understanding

nvidia Build an Enterprise RAG Pipeline Blueprint

Power fast, accurate semantic search across multimodal enterprise data with NVIDIA’s RAG Blueprint—built on NeMo Retriever and Nemotron models—to connect your agents to trusted, authoritative sources of knowledge.

NIM Launchable Nemotron Blueprint Enterprise Retrieval-Augmented Generation NVIDIA AI NeMo Retriever

microsoft phi-3.5-vision-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

Vision Assistant Visual Question Answering Language Generation Image-to-Text

nvidia nvclip

NV-CLIP is a multimodal embeddings model for image and text.

Computer vision multimodal embeddings text and image Run-on-rtx