Try NVIDIA NIM APIs

Explore Models Blueprints GPUs Docs

Manage My Privacy

Contact

Search Results

Searching for: Vision Assistant

Sorting by Most Recent

nvidia llama-3.1-nemotron-nano-vl-8b-v1

Multi-modal vision-language model that understands text/img and creates informative responses

doc intelligence multiple image understanding ocr nvidia

meta llama-4-maverick-17b-128e-instruct

A general purpose multimodal, multilingual 128 MoE model with 17B parameters.

language generation image-to-text vision assistant visual question answering meta

meta llama-4-scout-17b-16e-instruct

A multimodal, multilingual 16 MoE model with 17B parameters.

language generation image-to-text vision assistant visual question answering meta

google gemma-3-27b-it

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

vision assistant visual question answering language generation image-to-text google

nvidia nemoretriever-parse

Cutting-edge vision-language model exceling in retrieving text and metadata from images.

optical character recognition nemo retriever data ingestion table extraction supported language - english nvidia

llamaindex Document Research Assistant for Blog Creation

Automate research, and generate blogs with AI Agents using LlamaIndex and Llama3.3-70B NIM LLM.

blog creation launchable ai agents blueprint partner llamaindex nvidia ai llamaindex

nvidia cosmos-nemotron-34b

Multi-modal vision-language model that understands text/img/video and creates informative responses

vlm vision language model image caption image to text nvidia

meta sam2

SAM 2 is a segmentation model that enables fast, precise selection of any object in any video or image.

meta computer vision segmentation video

hive deepfake-image-detection

Advanced AI model detects faces and identifies deep fake images.

computer vision ai safety deep fake detection content moderation hive

nvidia Build a Video Search and Summarization (VSS) Agent

Ingest massive volumes of live or archived videos and extract insights for summarization and interactive Q&A

vision video-to-text generative ai launchable blueprint chat enterprise nvidia ai nvidia

nvidia Build an AI Virtual Assistant

Create intelligent virtual assistants for customer service across every industry

customer service launchable blueprint retrieval-augmented generation llm contact center nvidia ai nvidia

nvidia mistral-nemo-minitron-8b-8k-instruct

State-of-the-art small language model delivering superior accuracy for chatbot, virtual assistants, and content generation.

small language model chat code generation chat text-to-text language generation nvidia

meta llama-3.2-11b-vision-instruct

Cutting-edge vision-language model exceling in high-quality reasoning from images.

image-text retrieval visual qa image-to-text image captioning visual grounding meta

meta llama-3.2-90b-vision-instruct

Cutting-edge vision-Language model exceling in high-quality reasoning from images.

image-text retrieval visual qa image captioning image-to-text visual grounding meta

nvidia vila

Multi-modal vision-language model that understands text/img/video and creates informative responses

vlm vision language model image caption image to text nvidia

hive ai-generated-image-detection

Robust image classification model for detecting and managing AI-generated content.

image classification computer vision ai safety content moderation hive

microsoft phi-3.5-vision-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

vision assistant visual question answering language generation image-to-text microsoft

nvidia mistral-nemo-minitron-8b-base

State-of-the-art small language model delivering superior accuracy for chatbot, virtual assistants, and content generation.

language generation text-to-text chat small language model nvidia

nvidia nv-dinov2

NV-DINOv2 is a visual foundation model that generates vector embeddings for the input image.

image-to-embedding computer vision deepstream nvidia nim object classification nvidia

nvidia nv-grounding-dino

Grounding dino is an open vocabulary zero-shot object detection model.

object detection computer vision deepstream nvidia nim nvidia

nvidia fastpitch-hifigan-tts

Expressive and engaging English voices for Q&A assistants, brand ambassadors, and service robots

text-to-speech nvidia nim nvidia

microsoft florence-2

Vision foundation model capable of performing diverse computer vision and vision language tasks.

image classification image object detection cv multimodal vision assistant vlm visual question answering computer vision language generation image-to-text text-to-image microsoft

nvidia nvclip

NV-CLIP is a multimodal embeddings model for image and text.

computer vision multimodal embeddings text and image nvidia nim run-on-rtx nvidia

nvidia ocdrnet

OCDNet and OCRNet are pre-trained models designed for optical character detection and recognition respectively.

optical character recognition image optical character detection cv vlm computer vision tao toolkit video nvidia

nvidia visual-changenet

Visual Changenet detects pixel-level change maps between two images and outputs a semantic change segmentation mask

image image generation cv image segmentation vlm computer vision tao toolkit video nvidia nim nvidia

nvidia retail-object-detection

EfficientDet-based object detection network to detect 100 specific retail objects from an input video.

object detection image cv vlm computer vision tao toolkit video nvidia nim nvidia

microsoft phi-3-vision-128k-instruct

Cutting-edge open multimodal model exceling in high-quality reasoning from images.

image cv vision assistant vlm visual question answering computer vision language generation image-to-text video microsoft

google paligemma

Vision language model adept at comprehending text and visual inputs to produce informative responses

image cv vision assistant vlm visual question answering computer vision language generation image-to-text video google

microsoft kosmos-2

Groundbreaking multimodal model designed to understand and reason about visual elements in images.

image cv multimodal vlm visual question answering computer vision image understanding image-to-text video microsoft

nvidia neva-22b

Multi-modal vision-language model that understands text/images and generates informative responses

image cv vision assistant non-commercial use only vlm visual question answering computer vision image-to-text video nvidia

adept fuyu-8b

Multi-modal model for a wide range of tasks, including image understanding and language generation.

image cv multimodal vlm computer vision image understanding language generation image-to-text video adept