Try NVIDIA NIM APIs

Sorting by Most Recent

shutterstock/edify-360-hdri

Shutterstock Generative 3D service for 360 HDRi generation. Trained on NVIDIA Edify using Shutterstock’s licensed creative libraries.

HDRi

Text-to-360

meta/llama-3.2-11b-vision-instruct

Cutting-edge vision-language model exceling in high-quality reasoning from images.

Image-Text Retrieval

Visual QA

meta/llama-3.2-90b-vision-instruct

Cutting-edge vision-Language model exceling in high-quality reasoning from images.

Image-Text Retrieval

Visual QA

nvidia/vila

Multi-modal vision-language model that understands text/img/video and creates informative responses

VLM

Vision language model

briaai/BRIA-2.3

An enterprise-grade text-to-image model trained on a compliant dataset produces high quality images.

Image Generation

Text-to-Image

nvidia/usdsearch

AI-powered search for OpenUSD data, 3D models, images, and assets using text or image-based inputs.

OpenUSD

Synthetic Data Generation

Shutterstock/edify-3d

Shutterstock Generative 3D service for 3D asset generation. Trained on NVIDIA Edify using Shutterstock’s licensed creative libraries

Image-to-3D

Text-to-3D

nvidia/nvclip

NV-CLIP is a multimodal embeddings model for image and text.

multimodal embeddings

text and image

stabilityai/stable-diffusion-3-medium

Advanced text-to-image model for generating high quality images

Image Generation

Text-to-Image

google/paligemma

Vision language model adept at comprehending text and visual inputs to produce informative responses

image

google/deplot

One-shot visual language understanding model that translates images of plots into tables.

Multimodal

Visual Language Understanding

nvidia/neva-22b

Multi-modal vision-language model that understands text/images and generates informative responses

image

stabilityai/sdxl-turbo

A fast generative text-to-image model that can synthesize photorealistic images from a text prompt in a single network evaluation

Image Generation

Text-to-Image