CosyVoice 3 - голосовой ИИ от Alibaba на миллион часов речи

CosyVoice 3 - голосовой ИИ от Alibaba на миллион часов речи

TL;DR: Alibaba представили CosyVoice 3 - модель синтеза речи нового поколения. Обучена на миллионе часов аудио, понимает 9 языков и 18 китайских диалектов. Умеет клонировать голос, передавать эмоции и смешивать языки в одной фразе.

Привет! Команда FunAudioLLM из Alibaba выкатила третью версию своей модели синтеза речи CosyVoice. И тут есть на что посмотреть.

Что нового

Главное - масштаб. Датасет вырос с 10 тысяч часов до миллиона. Это примерно 114 лет непрерывной речи. Параметров тоже прибавилось - с 500 миллионов до 1.5 миллиарда.

Что умеет:

  • Zero-shot клонирование - даёшь образец голоса, получаешь синтез этим голосом
  • 9 языков - английский, китайский, японский, корейский, немецкий, испанский, французский, итальянский, русский
  • 18 китайских диалектов - кантонский, сычуаньский, шанхайский и другие
  • Эмоции - радость, грусть, страх, злость, удивление
  • Смешивание языков - можно говорить на нескольких языках в одной фразе

Как это работает

Под капотом - комбинация LLM и технологии chunk-aware flow matching. Звучит сложно, но суть простая: модель понимает контекст и генерирует речь кусками, сохраняя естественность интонаций.

Интересная штука - новый токенизатор речи. Его обучали на нескольких задачах сразу: распознавание речи, определение эмоций, идентификация языка, анализ говорящего. Это помогает модели лучше передавать просодику - то, как мы выделяем слова и расставляем паузы.

Что это значит

Синтез речи становится всё ближе к человеческому. Миллион часов обучающих данных - это серьёзно. Думаю, скоро увидим эту модель в продуктах Alibaba, а может и в open-source.

Для тех, кто работает с голосовыми интерфейсами - стоит следить за развитием.

📚 Источники