Jamba 1.5 Mini

12B

AI21 Labs

Hybrid SSM-Transformer with 256K context. Efficient long-document QA on 16GB.

Consumer GPUMac / Apple Silicon

262K

Max Context

Quant Variants

GGUF Q4_K_M

Best Quality

96.6%

Accuracy Retained

Quantization Variants

Per-quant VRAM, quality loss, and inference speed on RTX 4090

Format	Level	BPW	VRAM	PPL Loss	Speed	Actions
GGUF	Q4_K_M	4.85	8.5 GB	3.4%	95 tok/s	Calc HF
AWQ	INT4	4	7.5 GB	4.8%	125 tok/s	Calc HF