Whisper, TTS и голосовой ИИ: обзор технологий распознавания и синтеза речи
Обзор голосовых ИИ-технологий: распознавание речи Whisper, синтез речи ElevenLabs, OpenAI TTS. Практическое применение и сравнение.
Голосовые технологии — одна из самых зрелых областей ИИ. Распознавание речи (STT — speech-to-text) и синтез речи (TTS — text-to-speech) прошли путь от роботизированных голосов и 70% точности до моделей, которые транскрибируют лучше людей и генерируют речь, неотличимую от человеческой.
Распознавание речи: Whisper
OpenAI выпустила Whisper в сентябре 2022 года как open-source модель для распознавания речи. За два года Whisper стал де-факто стандартом для транскрибации — и не без причины.
Что умеет Whisper
- Транскрибация — превращение аудио в текст с точностью, превосходящей коммерческие сервисы на многих языках
- Перевод — транскрибация с переводом на английский в одном шаге
- Определение языка — автоматическая детекция среди 99 языков
- Временные метки — привязка текста к моментам в аудио (word-level timestamps)
Whisper обучен на 680 000 часов аудио с разметкой, собранных из интернета. Модель мультиязычная: поддерживает русский, украинский, белорусский и десятки других языков.
Размеры модели
Whisper доступен в пяти размерах:
- tiny (39M параметров) — быстрый, но менее точный. Подходит для предварительной обработки.
- base (74M) — баланс скорости и качества для простых задач
- small (244M) — хорошее качество на потребительском железе
- medium (769M) — высокое качество, заметно лучше на сложных акцентах и шуме
- large-v3 (1.5B) — максимальное качество. Для русского языка заметно точнее, чем меньшие версии
Запуск Whisper
# Установка
pip install openai-whisper
# Транскрибация
whisper audio.mp3 --model large-v3 --language ru# Python API
import whisper
model = whisper.load_model("large-v3")
result = model.transcribe("audio.mp3", language="ru")
print(result["text"])Для ускорения — faster-whisper: реализация на CTranslate2, которая работает в 4 раза быстрее оригинала при том же качестве. Whisper large-v3 через faster-whisper транскрибирует час аудио за 3–5 минут на GPU.
Whisper через API
OpenAI предоставляет Whisper через API: $0.006 за минуту аудио. Не нужен GPU — загружаете файл, получаете текст. Для задач, где нет требований к конфиденциальности, это простейший вариант.
Синтез речи: от роботов к живым голосам
Синтез речи за последние три года совершил качественный скачок. Голоса нового поколения передают интонации, паузы, эмоции. Не все — некоторые по-прежнему звучат синтетически. Но лучшие — почти неотличимы от человеческой речи.
OpenAI TTS
OpenAI TTS (ноябрь 2023) — два голосовых движка:
- tts-1 — оптимизирован для скорости и потоковой передачи. Используется в реальном времени (чат-боты, ассистенты). Качество хорошее, но при внимательном прослушивании слышна синтетичность.
- tts-1-hd — оптимизирован для качества. Для подкастов, аудиокниг, озвучки видео.
Шесть голосов на выбор. Стоимость: $15 за миллион символов (tts-1), $30 за миллион (tts-1-hd). Поддержка русского языка — есть, но качество заметно ниже английского.
ElevenLabs
ElevenLabs — стартап, который стал лидером в качестве голосового синтеза. Ключевые возможности:
- Voice cloning — создание цифровой копии голоса по 1–5 минутам аудиозаписи. Клонированный голос сохраняет тембр, интонации, акцент оригинала.
- Мультиязычность — один клонированный голос говорит на 29 языках, включая русский, сохраняя характеристики оригинала
- Эмоции и стили — управление интонацией: нейтральная, весёлая, серьёзная, шёпот
Стоимость: от $5/месяц (30 минут аудио) до $330/месяц (200 часов). Бесплатный тариф: 10 минут в месяц.
ElevenLabs используется для дубляжа фильмов, озвучки аудиокниг, создания голосовых ассистентов и клонирования голосов для людей, потерявших способность говорить.
Open-source: Coqui TTS, Bark, XTTS
Coqui XTTS — open-source модель с поддержкой клонирования голоса. Качество ниже ElevenLabs, но модель можно запустить локально и дообучить на своих данных. Поддерживает русский.
Bark от Suno — open-source модель, генерирующая не только речь, но и музыку, звуковые эффекты, смех. Нестабильна в качестве, но уникальна по возможностям.
Голосовые ассистенты нового поколения
Объединение STT + LLM + TTS создаёт голосовых ассистентов, которые слушают, думают и отвечают голосом. GPT-4o от OpenAI обрабатывает аудио нативно — без промежуточной транскрибации. Модель «слышит» интонацию, определяет эмоции говорящего и генерирует ответ с соответствующей интонацией. Задержка — менее 500 мс.
Для собственного голосового ассистента:
# Минимальный голосовой ассистент: Whisper + Claude + OpenAI TTS
import whisper
import anthropic
from openai import OpenAI
# 1. Распознавание
stt_model = whisper.load_model("base")
result = stt_model.transcribe("user_audio.wav", language="ru")
user_text = result["text"]
# 2. Генерация ответа
claude = anthropic.Anthropic()
response = claude.messages.create(
model="claude-sonnet-4-20250514",
max_tokens=300,
messages=[{"role": "user", "content": user_text}]
)
answer = response.content[0].text
# 3. Синтез речи
openai_client = OpenAI()
audio = openai_client.audio.speech.create(
model="tts-1", voice="nova", input=answer
)
audio.stream_to_file("response.mp3")Применение в бизнесе
Транскрибация встреч. Whisper + LLM для суммаризации: запись совещания превращается в протокол с задачами и дедлайнами.
Контент. Подкасты озвучиваются синтетическим голосом. Статьи превращаются в аудиоформат. Видеоконтент получает закадровый голос на десятках языков.
Поддержка клиентов. Голосовые боты на основе LLM + TTS обрабатывают типовые обращения. Стоимость — кратно ниже живого оператора при круглосуточной доступности.
Доступность. Синтез речи для людей с нарушениями зрения. Транскрибация для людей с нарушениями слуха. Голосовое управление для людей с ограниченной подвижностью.
Этические вопросы
Клонирование голоса поднимает серьёзные вопросы. Deepfake-аудио — подделка голоса политика, руководителя, родственника — уже используется в мошеннических схемах. ElevenLabs и другие провайдеры внедряют меры защиты: верификация личности при клонировании, watermarking синтетического аудио, детекторы искусственной речи. Но технология опережает защитные механизмы, и ответственное использование остаётся на стороне пользователей.
Whisper: лучший open source ASR
OpenAI Whisper — модель распознавания речи с открытым весами, обученная на 680K часов аудио. Поддерживает 99 языков, включая русский с высокой точностью (~5% WER). Доступна в нескольких размерах: от tiny (39M параметров, ~1GB RAM) до large-v3 (1.5B, ~10GB RAM).
Модели Whisper: характеристики
| Модель | Параметры | VRAM | Скорость (CPU) | WER (RU) |
|---|---|---|---|---|
| tiny | 39M | ~1GB | ~32x realtime | ~15% |
| base | 74M | ~1GB | ~16x realtime | ~10% |
| small | 244M | ~2GB | ~6x realtime | ~7% |
| medium | 769M | ~5GB | ~2x realtime | ~6% |
| large-v3 | 1550M | ~10GB | ~1x realtime | ~5% |
| turbo (large-v3-turbo) | 809M | ~6GB | ~8x realtime | ~5% |
faster-whisper: ускорение в 4 раза
faster-whisper — оптимизированная реализация Whisper на CTranslate2 с INT8 квантизацией. Скорость в 4x выше оригинала при том же качестве. Рекомендуется для production: меньше VRAM, быстрее, поддерживает батчевую обработку.
TTS: синтез речи — сравнение решений
| Решение | Качество (RU) | Латентность | Self-hosted | Цена |
|---|---|---|---|---|
| ElevenLabs | ★★★★★ | ~200мс | Нет | $5+/мес |
| Яндекс SpeechKit | ★★★★★ | ~150мс | Нет | ~0.2 ₽/мин |
| OpenAI TTS | ★★★★☆ | ~300мс | Нет | $15/1M знаков |
| Silero TTS | ★★★★☆ | ~200мс (GPU) | Да | Бесплатно |
| Kokoro TTS | ★★★★☆ (EN) | ~100мс | Да | Бесплатно |
| Coqui TTS | ★★★☆☆ | ~500мс | Да | Бесплатно |
Silero TTS: лучший self-hosted для русского
Silero — российская open source TTS-модель с отличным качеством для русского языка. Доступна через PyTorch Hub, работает на CPU (~200мс для коротких фраз). Поддерживает несколько голосов, правильно обрабатывает русские аббревиатуры и числа.
import torch
model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language='ru', speaker='v4_ru')
audio = model.apply_tts('Привет! Это синтез речи на русском языке.', speaker='aidar', sample_rate=24000)
# audio — тензор, можно сохранить или проигратьИнтеграция Whisper + Silero для полного офлайн-стека
Whisper large-v3 (ASR) + Silero v4 (TTS) дают полноценный голосовой интерфейс без облака. Производительность на M2 MacBook Pro (16GB): Whisper medium ~3x realtime, Silero TTS ~150мс для фразы. Общая латентность голосового пайплайна — 2–3 секунды. Оптимально для корпоративных решений с требованиями к конфиденциальности.
Читайте также
- Как создать голосового ассистента с Whisper и GPT
- ElevenLabs vs Play.ht: синтез речи
- Мультимодальные модели ИИ
Подробнее: Лучшие ИИ-инструменты 2026 года