Ollama стал на 30% быстрее — что показали на CES 2026

NVIDIA ускорила open source AI-инструменты на RTX видеокартах. Ollama быстрее на 30%, ComfyUI — в 3-4 раза. Разбираем главное с CES 2026.

Pavel Matveev

19 янв. 2026 — 1 min read

TL;DR: NVIDIA на CES 2026 показала ускорение open source AI-инструментов. Ollama генерирует токены на 30% быстрее, llama.cpp — на 35%. ComfyUI с новым форматом NVFP4 работает в 3-4 раза шустрее. Всё это для RTX-карточек.

Если ты запускаешь нейросети локально — это твои новости. NVIDIA на CES 2026 рассказала про обновления популярных open source инструментов, и цифры приятные.

Что ускорили

Ollama — плюс 30% к скорости генерации токенов. Сделали через flash attention по умолчанию (меньше гоняет данные между GPU и RAM) и оптимизировали работу с памятью. Бонусом добавили LogProbs API — пригодится для классификации и подсчёта perplexity.

llama.cpp — плюс 35% на MoE-моделях. Перенесли сэмплинг токенов на GPU, добавили параллельные CUDA-потоки для QKV-проекций. На DGX Spark модели грузятся на 65% быстрее. Для карточек Blackwell добавили нативную поддержку MXFP4 — это ещё +25% к обработке промптов.

ComfyUI — тут самое-самое. Новый формат NVFP4 даёт прирост в 3-4 раза по сравнению с FP16/BF16. FP8-квантизация — в 2 раза быстрее. При этом NVFP4 экономит 60% видеопамяти, FP8 — 40%. Для тех, кто генерирует картинки локально, это серьёзно.

Новые модели

LTX-2 — генерирует 20 секунд синхронного аудио-видео в 4K. До 50 fps. С NVFP8 на 30% меньше потребление памяти. Работает на RTX и DGX Spark.

Nemotron 3 Nano — MoE-модель на 32B параметров, оптимизированная под агентские задачи. Активных параметров всего 3.6B, контекст — миллион токенов. Доступна через Ollama и llama.cpp, можно дообучать через Unsloth.

Ещё по мелочи

Docling — инструмент для обработки документов. На RTX работает в 4 раза быстрее, чем на CPU. Два режима: классический OCR и через VLM. Полезно для RAG-пайплайнов.

Video Effects SDK — подсветка в видео теперь в 3 раза быстрее, размер модели уменьшили в 6 раз. Минимум RTX 3060.

Думаю, для тех, кто сидит на RTX и гоняет модели локально — это хороший апдейт. Особенно ComfyUI с его 3-4x приростом. Обновления уже доступны, так что можно пробовать.

Что ещё почитать

GLM-4.7 — обновление модели для кодинга от z.ai — ещё одна модель для локального запуска через llama.cpp
Память AI-агентов — почему хранить всё подряд не работает — если интересует, как работают агентские модели вроде Nemotron 3 Nano