GLM-4.6V - опенсорс мультимодалка с function calling

TL;DR: Zhipu AI выкатили GLM-4.6V - опенсорсную мультимодальную модель с 128K контекстом. Умеет понимать картинки и видео, а главное - нативно вызывать функции. При регистрации дают 20 миллионов бесплатных токенов.

А вот это интересно. Китайцы из Zhipu AI (это те, кто делают ChatGLM) выпустили новую визуальную модель, и она реально крутая.

Что это

GLM-4.6V - это мультимодальная модель, которая понимает текст, изображения и видео. Но самое-самое - она умеет нативно вызывать функции (function calling), что делает её пригодной для агентских сценариев.

Основные характеристики:

  • 128K контекстное окно
  • Понимание изображений, видео и документов
  • Native function calling из коробки
  • Open-source (можно скачать и запустить локально)
  • SOTA среди опенсорс моделей в своём классе

Как работает

Модель заточена под агентские workflow. Ты можешь скормить ей скриншот интерфейса, и она поймёт что там происходит. Или дать задачу типа "найди информацию в интернете" - и она сама вызовет нужные функции.

Что умеет:

  • Анализ изображений и скриншотов
  • Понимание видео
  • OCR и парсинг документов
  • Веб-поиск через tool use
  • Написание и анализ кода

Тарифы

Zhipu дают щедрый бесплатный тир:

  • 20 миллионов токенов при регистрации
  • Ещё до 200M токенов через реферальную программу

Платные тарифы (для визуальных моделей):

  • Input до 32K: ¥2 / 1M токенов (~$0.27)
  • Output: ¥6 / 1M токенов (~$0.82)
  • Input 32-64K: ¥4 / 1M токенов

Есть бесплатная модель GLM-4.5-Flash для тех, кому нужно экономить.

А ещё у них есть GLM Coding Plan от $3/месяц - это подписка для интеграции с Claude Code, Cline и другими инструментами для кодинга.

Для кого

Думаю, GLM-4.6V пригодится:

  • Разработчикам AI-агентов, которым нужен визуальный ввод
  • Тем, кто строит автоматизации с анализом скриншотов
  • Командам, которые хотят опенсорс альтернативу GPT-4V
  • Тем, кто работает с документами и нужен OCR + понимание контекста

Если тебе нужна мультимодальная модель с function calling и ты не хочешь платить OpenAI - это отличный вариант.

Попробовать можно тут: bigmodel.cn

Что ещё почитать