Try NVIDIA NIM APIs

nvidia/llama-3.2-nv-embedqa-1b-v1

World-class multilingual and cross-lingual question-answering retrieval.

Embeddings

Retrieval Augmented Generation

meta/llama-3.2-11b-vision-instruct

Cutting-edge vision-language model exceling in high-quality reasoning from images.

Image-Text Retrieval

Visual QA

meta/llama-3.2-90b-vision-instruct

Cutting-edge vision-Language model exceling in high-quality reasoning from images.

Image-Text Retrieval

Visual QA

microsoft/phi-3.5-vision-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

Vision Assistant

Visual Question Answering

nvidia/nv-dinov2

NV-DINOv2 is a visual foundation model that generates vector embeddings for the input image.

Image-to-Embedding

computer vision

microsoft/florence-2

Vision foundation model capable of performing diverse computer vision and vision language tasks.

Image Classification

image

nvidia/usdvalidate

Verify compatibility of OpenUSD assets with instant RTX render and rule-based validation.

Validation

OpenUSD

nvidia/nv-rerankqa-mistral-4b-v3

GPU-accelerated model optimized for providing a probability score that a given passage contains the information to answer a question.

Ranking

Retrieval Augmented Generation

nvidia/nv-embedqa-e5-v5

GPU-accelerated generation of text embeddings used for question-answering retrieval.

Embeddings

Retrieval Augmented Generation

nvidia/nv-embedqa-mistral-7b-v2

GPU-accelerated generation of text embeddings used for question-answering retrieval.

Embeddings

Retrieval Augmented Generation

nvidia/visual-changenet

Visual Changenet detects pixel-level change maps between two images and outputs a semantic change segmentation mask

image

Image Generation

microsoft/phi-3-vision-128k-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

image

cv

google/paligemma

Vision language model adept at comprehending text and visual inputs to produce informative responses

image

cv

nvidia/embed-qa-4

GPU-accelerated generation of text embeddings used for question-answering retrieval.

Embeddings

Retrieval Augmented Generation

nvidia/rerank-qa-mistral-4b

GPU-accelerated model optimized for providing a probability score that a given passage contains the information to answer a question.

Ranking

Retrieval Augmented Generation

stabilityai/stable-diffusion-xl

Generate images and stunning visuals with realistic aesthetics.

Image Generation

Text-to-Image

microsoft/kosmos-2

Groundbreaking multimodal model designed to understand and reason about visual elements in images.

image

cv

google/deplot

One-shot visual language understanding model that translates images of plots into tables.

Multimodal

Visual Language Understanding

nvidia/neva-22b

Multi-modal vision-language model that understands text/images and generates informative responses

image

cv