GLM-4.6V - опенсорс мультимодалка с function calling

Pavel Matveev

09 дек. 2025 — 1 min read

TL;DR: Zhipu AI выкатили GLM-4.6V - опенсорсную мультимодальную модель с 128K контекстом. Умеет понимать картинки и видео, а главное - нативно вызывать функции. При регистрации дают 20 миллионов бесплатных токенов.

А вот это интересно. Китайцы из Zhipu AI (это те, кто делают ChatGLM) выпустили новую визуальную модель, и она реально крутая.

Что это

GLM-4.6V - это мультимодальная модель, которая понимает текст, изображения и видео. Но самое-самое - она умеет нативно вызывать функции (function calling), что делает её пригодной для агентских сценариев.

Основные характеристики:

128K контекстное окно
Понимание изображений, видео и документов
Native function calling из коробки
Open-source (можно скачать и запустить локально)
SOTA среди опенсорс моделей в своём классе

Как работает

Модель заточена под агентские workflow. Ты можешь скормить ей скриншот интерфейса, и она поймёт что там происходит. Или дать задачу типа "найди информацию в интернете" - и она сама вызовет нужные функции.

Что умеет:

Анализ изображений и скриншотов
Понимание видео
OCR и парсинг документов
Веб-поиск через tool use
Написание и анализ кода

Тарифы

Zhipu дают щедрый бесплатный тир:

20 миллионов токенов при регистрации
Ещё до 200M токенов через реферальную программу

Платные тарифы (для визуальных моделей):

Input до 32K: ¥2 / 1M токенов (~$0.27)
Output: ¥6 / 1M токенов (~$0.82)
Input 32-64K: ¥4 / 1M токенов

Есть бесплатная модель GLM-4.5-Flash для тех, кому нужно экономить.

А ещё у них есть GLM Coding Plan от $3/месяц - это подписка для интеграции с Claude Code, Cline и другими инструментами для кодинга.

Для кого

Думаю, GLM-4.6V пригодится:

Разработчикам AI-агентов, которым нужен визуальный ввод
Тем, кто строит автоматизации с анализом скриншотов
Командам, которые хотят опенсорс альтернативу GPT-4V
Тем, кто работает с документами и нужен OCR + понимание контекста

Если тебе нужна мультимодальная модель с function calling и ты не хочешь платить OpenAI - это отличный вариант.

Попробовать можно тут: bigmodel.cn

Что ещё почитать

TranslateGemma — Google открыл модели перевода на 55 языков — опенсорсные модели перевода на базе Gemma 3, 55 языков, работает на смартфоне
DeepSeek Engram — память для LLM — ещё один интересный опенсорс подход к улучшению моделей
Devstral 2 — опенсорсная модель от Mistral — сильный опенсорс игрок для кодинга