GLM-4.6V - опенсорс мультимодалка с function calling
TL;DR: Zhipu AI выкатили GLM-4.6V - опенсорсную мультимодальную модель с 128K контекстом. Умеет понимать картинки и видео, а главное - нативно вызывать функции. При регистрации дают 20 миллионов бесплатных токенов.
А вот это интересно. Китайцы из Zhipu AI (это те, кто делают ChatGLM) выпустили новую визуальную модель, и она реально крутая.
Что это
GLM-4.6V - это мультимодальная модель, которая понимает текст, изображения и видео. Но самое-самое - она умеет нативно вызывать функции (function calling), что делает её пригодной для агентских сценариев.
Основные характеристики:
- 128K контекстное окно
- Понимание изображений, видео и документов
- Native function calling из коробки
- Open-source (можно скачать и запустить локально)
- SOTA среди опенсорс моделей в своём классе
Как работает
Модель заточена под агентские workflow. Ты можешь скормить ей скриншот интерфейса, и она поймёт что там происходит. Или дать задачу типа "найди информацию в интернете" - и она сама вызовет нужные функции.
Что умеет:
- Анализ изображений и скриншотов
- Понимание видео
- OCR и парсинг документов
- Веб-поиск через tool use
- Написание и анализ кода
Тарифы
Zhipu дают щедрый бесплатный тир:
- 20 миллионов токенов при регистрации
- Ещё до 200M токенов через реферальную программу
Платные тарифы (для визуальных моделей):
- Input до 32K: ¥2 / 1M токенов (~$0.27)
- Output: ¥6 / 1M токенов (~$0.82)
- Input 32-64K: ¥4 / 1M токенов
Есть бесплатная модель GLM-4.5-Flash для тех, кому нужно экономить.
А ещё у них есть GLM Coding Plan от $3/месяц - это подписка для интеграции с Claude Code, Cline и другими инструментами для кодинга.
Для кого
Думаю, GLM-4.6V пригодится:
- Разработчикам AI-агентов, которым нужен визуальный ввод
- Тем, кто строит автоматизации с анализом скриншотов
- Командам, которые хотят опенсорс альтернативу GPT-4V
- Тем, кто работает с документами и нужен OCR + понимание контекста
Если тебе нужна мультимодальная модель с function calling и ты не хочешь платить OpenAI - это отличный вариант.
Попробовать можно тут: bigmodel.cn
Что ещё почитать
- TranslateGemma — Google открыл модели перевода на 55 языков — опенсорсные модели перевода на базе Gemma 3, 55 языков, работает на смартфоне
- DeepSeek Engram — память для LLM — ещё один интересный опенсорс подход к улучшению моделей
- Devstral 2 — опенсорсная модель от Mistral — сильный опенсорс игрок для кодинга