Перейти к содержимому

~❤️Voice-Pro — лучший синтезатор речи с открытым кодом ? (Whisper, Google Translator и Edge TTS.)

Voice-Pro — лучший синтезатор речи с открытым кодом Voice-Pro — это комплексный инструмент с открытым исходным кодом для обработки аудио. Он включает функции транскрипции, перевода, синтеза речи и многое другое. Подойдет для создателей контента и разработчиков. Сервис идеально транскрибирует и переводит текст в речь. Этим он и интересен, что способен распознавать сложные диалекты и невнятное произношение. А еще он собрал в себе сразу несколько моделей — Whisper, Google Translator и Edge TTS.

Что крутого

Мультиязычный, знает более 100 языков, включая русский

Умеет загружать видео с YouTube, конвертировать в аудио и даже обрабатывать его в режиме реального времени

Реализована поддержка реального времени для распознавания и перевода речи, а также пакетная обработка большого количества файлов для создания субтитров, перевода и синтеза речи.

Основные возможности Voice-Pro:

Транскрипция и перевод:

Использует движки

Whisper, Faster-Whisper, Whisper-Timestamped

для преобразования речи в текст с поддержкой более 90 языков. Обеспечивает перевод на более чем 100 языков с помощью Google Translator.

Синтез речи (TTS)

: Поддерживает Edge-TTS с более чем 400 голосами на 100+ языках, а также F5-TTS для клонирования голоса с нулевым образцом, что позволяет создавать подкасты с использованием знаменитых голосов.

Изменение голоса и клонирование:

Предоставляет функции изменения голоса и клонирования голоса с нулевым образцом (E2, F5-TTS), так что можно создавать уникальные голосовые проекты.

Загрузка с YouTube и изоляция вокала:

Позволяет загружать видео с YouTube и извлекать аудио в форматах mp3, wav, flac.


«Whisper , Faster-Whisper , Whisper-Timestamped , WhisperX» что это значить?

Это названия различных версий и модификаций нейросети Whisper от компании OpenAI, которая предназначена для распознавания речи (перевода аудио в текст).

Если вы решили заняться транскрибацией видео или аудио, важно понимать разницу между ними, так как каждая версия решает свои задачи.


1. OpenAI Whisper

Это оригинальная модель, «база». Она задала стандарт качества: понимает десятки языков, расставляет знаки препинания и может переводить с других языков на английский.

  • Плюс: Эталонное качество.
  • Минус: Работает довольно медленно и требует много ресурсов видеокарты.

2. Faster-Whisper

Это переработка оригинала с использованием библиотеки CTranslate2.

  • Что изменилось: Она работает в 2–4 раза быстрее, чем оригинал, при том же качестве. Она гораздо эффективнее расходует видеопамять (VRAM).
  • Для кого: Самый популярный выбор для домашнего использования и серверов, где важна скорость.

3. Whisper-Timestamped

Модификация, созданная для решения проблемы с «таймстампами» (временными метками).

  • Что изменилось: Обычный Whisper иногда ошибается в точном времени начала и конца фразы. Эта версия привязывает текст к аудио на уровне каждого слова.
  • Для кого: Если вам нужны идеальные субтитры, где каждое слово подсвечивается ровно в момент произнесения.

4. WhisperX

На сегодняшний день считается «ультимативным» решением. Это целая система, которая объединяет несколько технологий.

  • Что умеет:
    • Использует Faster-Whisper как движок (очень быстро).
    • Phoneme Alignment: Выравнивает текст по звукам, достигая идеальной точности таймстампов.
    • Diarization: Умеет определять, кто именно говорит (Диктор 1, Диктор 2), что обычный Whisper делает плохо.
    • Убирает галлюцинации (когда нейросеть «зацикливается» и повторяет одну фразу).

Сводная таблица для выбора

НазваниеСкоростьТочность времениРаспознавание спикеров
WhisperМедленноСреднеНет
Faster-WhisperОчень быстроСреднеНет
Whisper-TimestampedСреднеОчень точноНет
WhisperXОчень быстроИдеальноДа

Итог: Если вы просто хотите быстро расшифровать интервью — берите Faster-Whisper. Если вам нужны профессиональные субтитры с разделением ролей — ваш выбор WhisperX.

Хотите, я помогу вам разобраться, как запустить одну из этих моделей на вашем компьютере или через Google Colab?


https://github.com/abus-aikorea/voice-pro

🎙️ Веб-приложение на базе искусственного интеллекта для распознавания речи, перевода и дубляжа.

한국어 ∙ английский ∙ 中文简体 ∙ 中文繁體 ∙ 日本語 ∙ Deutsch ∙ Español ∙ Português       

Voice-Pro — это современное веб-приложение, которое преобразует процесс создания мультимедийного контента. Оно объединяет загрузку видео с YouTube, разделение голосов, распознавание речи, перевод и преобразование текста в речь в единый мощный инструмент для создателей контента, исследователей и многоязычных специалистов.

  • 🔊 Лучшие системы распознавания речи: Whisper , Faster-Whisper , Whisper-Timestamped , WhisperX
  • 🎤 Клонирование голоса без предварительного обучения: F5-TTS , E2-TTS , CosyVoice
  • 📢 Многоязычное преобразование текста в речь: Edge-TTS (microsoft)kokoro (платная версия включает Azure TTS )
    • Edge Это инструмент преобразования текста в речь (TTS), реализованный на основе движка Edge, поддерживающий многоязычность и позволяющий.
    • kokoro — Библиотека для вывода результатов вычислений для Kokoro-82M . Вы можете pip install kokoro
      Kokoro — это модель синтеза речи с открытыми весами, имеющая 82 миллиона параметров. Несмотря на свою легковесную архитектуру, она обеспечивает качество, сопоставимое с более крупными моделями, при этом значительно быстрее и экономичнее. Благодаря весам, распространяемым по лицензии Apache, Kokoro может быть развернута где угодно — от производственных сред до личных проектов.
  • 🎥 Обработка видео с YouTube и извлечение звука: yt-dlp
  • 🌍 Мгновенный перевод более чем на 100 языков: Deep-Translator (платная версия включает Azure Translator )

Voice-Pro — это надежная альтернатива ElevenLabs , предоставляющая подкастерам, разработчикам и создателям контента передовые голосовые решения.

⚠️Пожалуйста, обрати внимание

  • В связи с работами по разработке WeConnect , разработка и обновление Voice-Pro в настоящее время невозможны.
  • Мы сделали весь код Voice-Pro открытым и полностью бесплатным. Теперь Voice-Pro может свободно распространяться и модифицироваться кем угодно.
  • Программа хорошо работает на Windows с графическим процессором NVIDIA. Работа на Mac и Linux не проверялась.
  • Пожалуйста, оставляйте свои запросы на  соответствующих страницах.
  • Устранение неполадок : В большинстве случаев проблемы можно решить, удалив installer_filesпапку, а затем запустив команду, configure.batпосле чего выполните start.bat.