Try NVIDIA NIM APIs

⌘KCtrl+K

Your Privacy Choices

Contact

Explore

⌘KCtrl+K

6 results for

Filters (2)

API Endpoint

Download Available

Launchable

Enterprise

Use Case

Image-to-Text

Code Generation

Drug Discovery

Retrieval Augmented Generation

Object Detection

Publisher

gemma-3-27b-it

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

Model

Vision Assistant

5.33M

9mo

llama-4-maverick-17b-128e-instruct

A general purpose multimodal, multilingual 128 MoE model with 17B parameters.

Model

language generation

2.75M

7mo

llama-4-scout-17b-16e-instruct

A multimodal, multilingual 16 MoE model with 17B parameters.

Model

language generation

263K

7mo

NVIDIA

nemotron-nano-12b-v2-vl

Nemotron Nano 12B v2 VL enables multi-image and video understanding, along with visual Q&A and summarization capabilities.

Model

language generation

1.59M

4mo

Google

paligemma

Vision language model adept at comprehending text and visual inputs to produce informative responses

Model

image

327K

Microsoft

phi-3.5-vision-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

Model

Vision Assistant

478K

Items per page

of 1 pages