Try NVIDIA NIM APIs

Explore Models Blueprints GPUs Docs

|

|

Manage My Privacy

|

Copyright © 2025 NVIDIA Corporation

Models

Deploy and scale models on your GPU infrastructure of choice with NVIDIA NIM inference microservices

Publisher

Use Case

NIM Type

Sorting by Most Recent

meta llama-guard-4-12b

Multi-modal model to classify safety for input prompts as well output responses.

llm multimodal safety content safety guardrail content moderator meta

nvidia llama-3.2-nemoretriever-1b-vlm-embed-v1

Multimodal question-answer retrieval representing user queries as text and documents as images.

nemo retriever embedding retrieval augmented generation text-to-embedding nvidia

mistralai mistral-small-3.1-24b-instruct-2503

Efficient multimodal model excelling at multilingual tasks, image understanding, and fast-responses

language generation multimodal image understanding mistralai

mistralai mistral-medium-3-instruct

Powerful, multimodal language model designed for enterprise applications, including software development, data analysis, and reasoning.

language generation image-to-text multimodal visual question answering mistralai

meta llama-4-maverick-17b-128e-instruct

A general purpose multimodal, multilingual 128 MoE model with 17B parameters.

language generation image-to-text vision assistant visual question answering meta

meta llama-4-scout-17b-16e-instruct

A multimodal, multilingual 16 MoE model with 17B parameters.

language generation image-to-text vision assistant visual question answering meta

nvidia nv-embedcode-7b-v1

The NV-EmbedCode model is a 7B Mistral-based embedding model optimized for code retrieval, supporting text, code, and hybrid queries.

nemo retriever embedding retrieval augmented generation nvidia

google gemma-3-27b-it

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

vision assistant visual question answering language generation image-to-text google

microsoft phi-4-multimodal-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from image and audio inputs.

speech recognition visual qa language generation image-to-text chart and table understanding microsoft

nvidia llama-3.2-nv-embedqa-1b-v2

Multilingual and cross-lingual text question-answering retrieval with long context support and optimized data storage efficiency.

nemo retriever run on rtx embedding retrieval augmented generation text-to-embedding nvidia

meta esm2-650m

Generates embeddings of proteins from their amino acid sequences.

nim protein embedding bionemo biology drug discovery meta

microsoft phi-3.5-vision-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

vision assistant visual question answering language generation image-to-text microsoft

nvidia nv-dinov2

NV-DINOv2 is a visual foundation model that generates vector embeddings for the input image.

image-to-embedding computer vision deepstream nvidia nim object classification nvidia

microsoft florence-2

Vision foundation model capable of performing diverse computer vision and vision language tasks.

image classification image object detection cv multimodal vision assistant vlm visual question answering computer vision language generation image-to-text text-to-image microsoft

nvidia nv-embedqa-e5-v5

English text embedding model for question-answering retrieval.

embedding retrieval augmented generation nemo retriever text-to-embedding nvidia

nvidia nv-embedqa-mistral-7b-v2

Multilingual text question-answering retrieval, transforming textual information into dense vector representations.

nemo retriever embedding retrieval augmented generation nvidia

nvidia nvclip

NV-CLIP is a multimodal embeddings model for image and text.

computer vision multimodal embeddings text and image nvidia nim run-on-rtx nvidia

nvidia nv-embed-v1

Generates high-quality numerical embeddings from text inputs.

non-commercial use only retrieval augmented generation text-to-embedding nvidia

baai bge-m3

Embedding model for text retrieval tasks, excelling in dense, multi-vector, and sparse retrieval.

embeddings retrieval augmented generation text-to-embedding baai

microsoft phi-3-vision-128k-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

image cv vision assistant vlm visual question answering computer vision language generation image-to-text video microsoft

snowflake arctic-embed-l

Optimized community model for text embedding.

nemo retriever embedding retrieval augmented generation text-to-embedding snowflake

nvidia embed-qa-4

GPU-accelerated generation of text embeddings used for question-answering retrieval.

embeddings retrieval augmented generation text-to-embedding nvidia

microsoft kosmos-2

Groundbreaking multimodal model designed to understand and reason about visual elements in images.

image cv multimodal vlm visual question answering computer vision image understanding image-to-text video microsoft

google deplot

Translate images of plots into tables with one-shot visual language understanding.

nemo retriever multimodal data ingestion image-to-text google

adept fuyu-8b

Multi-modal model for a wide range of tasks, including image understanding and language generation.

image cv multimodal vlm computer vision image understanding language generation image-to-text video adept