инструменты

Whisper, TTS и голосовой ИИ: обзор технологий распознавания и синтеза речи

Обзор голосовых ИИ-технологий: распознавание речи Whisper, синтез речи ElevenLabs, OpenAI TTS. Практическое применение и сравнение.

Голосовые технологии — одна из самых зрелых областей ИИ. Распознавание речи (STT — speech-to-text) и синтез речи (TTS — text-to-speech) прошли путь от роботизированных голосов и 70% точности до моделей, которые транскрибируют лучше людей и генерируют речь, неотличимую от человеческой.

Распознавание речи: Whisper

OpenAI выпустила Whisper в сентябре 2022 года как open-source модель для распознавания речи. За два года Whisper стал де-факто стандартом для транскрибации — и не без причины.

Что умеет Whisper

Транскрибация — превращение аудио в текст с точностью, превосходящей коммерческие сервисы на многих языках
Перевод — транскрибация с переводом на английский в одном шаге
Определение языка — автоматическая детекция среди 99 языков
Временные метки — привязка текста к моментам в аудио (word-level timestamps)

Whisper обучен на 680 000 часов аудио с разметкой, собранных из интернета. Модель мультиязычная: поддерживает русский, украинский, белорусский и десятки других языков.

Размеры модели

Whisper доступен в пяти размерах:

tiny (39M параметров) — быстрый, но менее точный. Подходит для предварительной обработки.
base (74M) — баланс скорости и качества для простых задач
small (244M) — хорошее качество на потребительском железе
medium (769M) — высокое качество, заметно лучше на сложных акцентах и шуме
large-v3 (1.5B) — максимальное качество. Для русского языка заметно точнее, чем меньшие версии

Запуск Whisper

# Установка
pip install openai-whisper

# Транскрибация
whisper audio.mp3 --model large-v3 --language ru

# Python API
import whisper

model = whisper.load_model("large-v3")
result = model.transcribe("audio.mp3", language="ru")
print(result["text"])

Для ускорения — faster-whisper: реализация на CTranslate2, которая работает в 4 раза быстрее оригинала при том же качестве. Whisper large-v3 через faster-whisper транскрибирует час аудио за 3–5 минут на GPU.

Whisper через API

OpenAI предоставляет Whisper через API: $0.006 за минуту аудио. Не нужен GPU — загружаете файл, получаете текст. Для задач, где нет требований к конфиденциальности, это простейший вариант.

Синтез речи: от роботов к живым голосам

Синтез речи за последние три года совершил качественный скачок. Голоса нового поколения передают интонации, паузы, эмоции. Не все — некоторые по-прежнему звучат синтетически. Но лучшие — почти неотличимы от человеческой речи.

OpenAI TTS

OpenAI TTS (ноябрь 2023) — два голосовых движка:

tts-1 — оптимизирован для скорости и потоковой передачи. Используется в реальном времени (чат-боты, ассистенты). Качество хорошее, но при внимательном прослушивании слышна синтетичность.
tts-1-hd — оптимизирован для качества. Для подкастов, аудиокниг, озвучки видео.

Шесть голосов на выбор. Стоимость: $15 за миллион символов (tts-1), $30 за миллион (tts-1-hd). Поддержка русского языка — есть, но качество заметно ниже английского.

ElevenLabs

ElevenLabs — стартап, который стал лидером в качестве голосового синтеза. Ключевые возможности:

Voice cloning — создание цифровой копии голоса по 1–5 минутам аудиозаписи. Клонированный голос сохраняет тембр, интонации, акцент оригинала.
Мультиязычность — один клонированный голос говорит на 29 языках, включая русский, сохраняя характеристики оригинала
Эмоции и стили — управление интонацией: нейтральная, весёлая, серьёзная, шёпот

Стоимость: от $5/месяц (30 минут аудио) до $330/месяц (200 часов). Бесплатный тариф: 10 минут в месяц.

ElevenLabs используется для дубляжа фильмов, озвучки аудиокниг, создания голосовых ассистентов и клонирования голосов для людей, потерявших способность говорить.

Open-source: Coqui TTS, Bark, XTTS

Coqui XTTS — open-source модель с поддержкой клонирования голоса. Качество ниже ElevenLabs, но модель можно запустить локально и дообучить на своих данных. Поддерживает русский.

Bark от Suno — open-source модель, генерирующая не только речь, но и музыку, звуковые эффекты, смех. Нестабильна в качестве, но уникальна по возможностям.

Голосовые ассистенты нового поколения

Объединение STT + LLM + TTS создаёт голосовых ассистентов, которые слушают, думают и отвечают голосом. GPT-4o от OpenAI обрабатывает аудио нативно — без промежуточной транскрибации. Модель «слышит» интонацию, определяет эмоции говорящего и генерирует ответ с соответствующей интонацией. Задержка — менее 500 мс.

Для собственного голосового ассистента:

# Минимальный голосовой ассистент: Whisper + Claude + OpenAI TTS
import whisper
import anthropic
from openai import OpenAI

# 1. Распознавание
stt_model = whisper.load_model("base")
result = stt_model.transcribe("user_audio.wav", language="ru")
user_text = result["text"]

# 2. Генерация ответа
claude = anthropic.Anthropic()
response = claude.messages.create(
    model="claude-sonnet-4-20250514",
    max_tokens=300,
    messages=[{"role": "user", "content": user_text}]
)
answer = response.content[0].text

# 3. Синтез речи
openai_client = OpenAI()
audio = openai_client.audio.speech.create(
    model="tts-1", voice="nova", input=answer
)
audio.stream_to_file("response.mp3")

Применение в бизнесе

Транскрибация встреч. Whisper + LLM для суммаризации: запись совещания превращается в протокол с задачами и дедлайнами.

Контент. Подкасты озвучиваются синтетическим голосом. Статьи превращаются в аудиоформат. Видеоконтент получает закадровый голос на десятках языков.

Поддержка клиентов. Голосовые боты на основе LLM + TTS обрабатывают типовые обращения. Стоимость — кратно ниже живого оператора при круглосуточной доступности.

Доступность. Синтез речи для людей с нарушениями зрения. Транскрибация для людей с нарушениями слуха. Голосовое управление для людей с ограниченной подвижностью.

Этические вопросы

Клонирование голоса поднимает серьёзные вопросы. Deepfake-аудио — подделка голоса политика, руководителя, родственника — уже используется в мошеннических схемах. ElevenLabs и другие провайдеры внедряют меры защиты: верификация личности при клонировании, watermarking синтетического аудио, детекторы искусственной речи. Но технология опережает защитные механизмы, и ответственное использование остаётся на стороне пользователей.

Whisper: лучший open source ASR

OpenAI Whisper — модель распознавания речи с открытым весами, обученная на 680K часов аудио. Поддерживает 99 языков, включая русский с высокой точностью (~5% WER). Доступна в нескольких размерах: от tiny (39M параметров, ~1GB RAM) до large-v3 (1.5B, ~10GB RAM).

Модели Whisper: характеристики

Модель	Параметры	VRAM	Скорость (CPU)	WER (RU)
tiny	39M	~1GB	~32x realtime	~15%
base	74M	~1GB	~16x realtime	~10%
small	244M	~2GB	~6x realtime	~7%
medium	769M	~5GB	~2x realtime	~6%
large-v3	1550M	~10GB	~1x realtime	~5%
turbo (large-v3-turbo)	809M	~6GB	~8x realtime	~5%

faster-whisper: ускорение в 4 раза

faster-whisper — оптимизированная реализация Whisper на CTranslate2 с INT8 квантизацией. Скорость в 4x выше оригинала при том же качестве. Рекомендуется для production: меньше VRAM, быстрее, поддерживает батчевую обработку.

TTS: синтез речи — сравнение решений

Решение	Качество (RU)	Латентность	Self-hosted	Цена
ElevenLabs	★★★★★	~200мс	Нет	$5+/мес
Яндекс SpeechKit	★★★★★	~150мс	Нет	~0.2 ₽/мин
OpenAI TTS	★★★★☆	~300мс	Нет	$15/1M знаков
Silero TTS	★★★★☆	~200мс (GPU)	Да	Бесплатно
Kokoro TTS	★★★★☆ (EN)	~100мс	Да	Бесплатно
Coqui TTS	★★★☆☆	~500мс	Да	Бесплатно

Silero TTS: лучший self-hosted для русского

Silero — российская open source TTS-модель с отличным качеством для русского языка. Доступна через PyTorch Hub, работает на CPU (~200мс для коротких фраз). Поддерживает несколько голосов, правильно обрабатывает русские аббревиатуры и числа.

import torch
model, _ = torch.hub.load('snakers4/silero-models', 'silero_tts', language='ru', speaker='v4_ru')
audio = model.apply_tts('Привет! Это синтез речи на русском языке.', speaker='aidar', sample_rate=24000)
# audio — тензор, можно сохранить или проиграть

Интеграция Whisper + Silero для полного офлайн-стека

Whisper large-v3 (ASR) + Silero v4 (TTS) дают полноценный голосовой интерфейс без облака. Производительность на M2 MacBook Pro (16GB): Whisper medium ~3x realtime, Silero TTS ~150мс для фразы. Общая латентность голосового пайплайна — 2–3 секунды. Оптимально для корпоративных решений с требованиями к конфиденциальности.