Google/gemma-3-27b-it is Very slow

zacksiri · May 1, 2025, 6:37am

I just tried out the NIM endpoint and seems like it’s extremely slow. Not sure why.

sophwats · May 1, 2025, 2:43pm

Hi @zacksiri, the hosted models can get slow when the endpoints get busy. Thanks for your patience.

Sophie

Topic		Replies	Views
Why the models response super slowly? Access/Accounts nim	4	639	May 10, 2026
NIM HTTP API Inference (Run Anywhere) Taking Extremely Long! Models nim , llama-31-70b-instruct , llama-31-405b-instruct , llama	1	734	September 11, 2024
Inferencing models from api taking very long Models jetson , nim , mistral-large , deepseek , nemotron	1	331	December 19, 2025
The NIM endpoints for Llama 3.1 405B are unreliable sometimes Models nim , llama-31-405b-instruct , llama	3	293	August 11, 2024
Bug Report: NVIDIA NIM Hosted Endpoint Reliability Issues - bugs requiring extensive client-side workarounds Models nim , deepseek	3	302	April 14, 2026
Give us qwen 3.6 Models nim	1	302	April 22, 2026
NVIDIA API endpoint Models nim , deepseek	1	95	May 15, 2026
Nvidia NIM Inference with Nvidia Hosted model taking very long Models nim	2	557	April 8, 2025
Models are very very slow Models nim	3	745	November 12, 2025
Need hosted API access for nvidia/nemotron-3-nano-30b-a3b Access/Accounts api , jetson , nim , deepseek , nemotron	0	142	February 22, 2026