Try NVIDIA NIM APIs

⌘KCtrl+K

Your Privacy Choices

Copyright © 2026 NVIDIA Corporation

4 results for

Filters (2)

Free Endpoint

3

Partner Endpoint

2

Download Available

1

Use Case

Image-to-Text

4

Image Generation

0

Text-to-Image

0

Optical Character Recognition

0

Synthetic Data Generation

0

Inference Providers

Bitdeer AI

2

Deep Infra

1

Together AI

0

GMI Cloud

0

Baseten

0

Publisher

Google

2

NVIDIA

1

Microsoft

1

Black forest labs

0

Meta

0

Labels (2)

language generation

Vision Assistant

Sort By

Free Endpoint

paligemma

Vision language model adept at comprehending text and visual inputs to produce informative responses

Items per page

of 1 pages

38.52K

1y

Downloadable

nemotron-nano-12b-v2-vl

Nemotron Nano 12B v2 VL enables multi-image and video understanding, along with visual Q&A and summarization capabilities.

language generation

4.68M

5mo

Free Endpoint

gemma-3-27b-it

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

Vision Assistant

5.69M

11mo

DeprecatedFree Endpoint

phi-3.5-vision-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

Vision Assistant

1.17M

1y