🔥Alibaba полностью открыла серию мощных TTS-моделей Команда Qwen выложила в открытый доступ всю линейку моделей генерации голоса Qwen3-TTS с весами на Hugging Face под лицензией Apache 2.0, то есть можно использовать бесплатно в любых проектах, включая коммерческие.

Alibaba полностью открыла серию мощных TTS-моделей Команда Qwen выложила в открытый доступ всю линейку моделей генерации голоса Qwen3-TTS с весами на Hugging Face под лицензией Apache 2.0, то есть можно использовать бесплатно в любых проектах, включая коммерческие. В релиз вошли пять моделей двух классов — 0.6B и 1.7B параметров: Base, CustomVoice и VoiceDesign. Они обучены на более чем 5 миллионах часов речевых данных и поддерживают 10 языков (включая русский), а также 9 китайских диалектов. Главная фишка — это не просто синтез речи, а полноценное проектирование голосов.

Модель VoiceDesign позволяет создавать новые голоса по текстовому описанию: можно задать пол, возраст, эмоциональность, манеру речи и даже характер персонажа.

CustomVoice клонирует голос всего по 3 секундам аудио и воспроизводит его на любом из 10 языков. По бенчмаркам Qwen3-TTS обходит коммерческие решения MiniMax и ElevenLabs по показателю Word Error Rate в 6 из 10 языков, включая английский, китайский, французский, итальянский, корейский и русский.

Техническая часть тоже интересная: 12Hz токенизатор обеспечивает сильную компрессию аудио без потери качества, что снижает требования к памяти и позволяет запускать модели локально. Задержка первого пакета — около 97 мс, что делает модель пригодной для real-time приложений.

В библиотеке 49+ готовых голосовых персонажей с разными характерами — от строгого учителя до игривого аниме-персонажа. Для разработчиков также доступен Python-пакет «qwen-tts» и поддержка vLLM для продакшена.