AI-ассистент для колл-центра за 6 месяцев: как 12 бэкендеров без ML-опыта вывели проект в пилот
Российская компания построила голосового AI-ассистента «Суфлёр» силами 12 бэкендеров без ML-опыта. RAG вместо fine-tuning, Qwen 8B вместо облачного GPT, задержка 2 секунды.
Российская компания «Передовые Платежные Решения» построила голосового AI-ассистента «Суфлёр» силами собственных разработчиков, без единого data scientist в штате. Проект прошёл путь от идеи до пилота за полгода, а рабочий прототип команда показала уже через три недели. Разбираем технические решения, компромиссы и результаты.
Задача: подсказки менеджеру за 2 секунды
У компании больше 35 продуктов в портфеле. Менеджерам по продажам приходится держать в голове десятки скриптов, характеристик и аргументов для отработки возражений. B2B-цикл длинный, и потеря контекста во время звонка стоит дорого.
«Суфлёр» в реальном времени слушает разговор, определяет продукт и наличие возражения, а затем выводит на экран менеджера текстовую подсказку с нужным скриптом.

Жёсткие требования к системе:
- Задержка генерации ответа не более 2 секунд, иначе подсказка приходит после того, как клиент ушёл в следующую тему
- Полная обработка данных внутри периметра компании, запрет на передачу транскриптов во внешние облака
- Интеграция с телефонией Voximplant
- Стек: Python, FastAPI, PostgreSQL, дообученные BERT-классификаторы, локальная Qwen 8B
Команда: 12 бэкендеров учатся ML с нуля
Компания решила не нанимать внешних ML-инженеров. 12 инженеров (бэкенд-разработчики, тимлиды и техлиды) прошли обучение и освоили архитектуру нейросетей, работу с LLM, эмбеддинги и векторные базы.
Расчёт простой: внешний подрядчик потратил бы месяцы только на погружение в бизнес-контекст. Свои разработчики уже знали, как устроена CRM, как работает телефония, какие ограничения у службы информационной безопасности. Им оставалось добрать ML-навыки.
Прототип за 3 недели: от GPT до зелёного света
Первый рабочий контур собрали за три недели:
- Взяли транскрипты звонков как входные данные
- Написали два классификатора на BERT (по услугам и по возражениям), обучив их примерно на 1 500 транскриптах
- Подготовили две векторные базы FAISS с описаниями услуг и скриптами отработки возражений
- Связали всё через промпты с облачной моделью GPT
- За один день накодили интерфейс на Django
Прототип работал, но с задержкой 10–15 секунд из-за обращений к облачной модели. Этого хватило для защиты идеи перед бизнесом. После одобрения начали доводить систему до продакшен-требований.
Четыре решения, которые определили архитектуру
Изначальный план включал собственный аудиоконвейер с Whisper, многоклассовые классификаторы, fine-tuning LLM и векторную базу с петлёй обратной связи. Такая система заняла бы 12–18 месяцев. Команда последовательно отказалась от всего, что не укладывалось в дедлайн.
RAG вместо fine-tuning
Fine-tuning требовал большого объёма правильно размеченных диалогов. У команды не было ни данных, ни разметчиков. Поэтому выбрали RAG — модель получает нужную информацию из базы знаний в момент запроса, а не заучивает её. Это сэкономило месяцы разработки и снизило риск галлюцинаций.
Бинарный детектор возражений вместо 15 классов
Исходный классификатор различал 15+ типов возражений, каждый требовал своего датасета и разметки. После анализа реальных диалогов команда поняла: для MVP достаточно определить сам факт возражения, без детализации типа. Многоклассовый классификатор заменили на бинарный (есть/нет). Точность выросла в разы. Типизацию возражения переложили на LLM, которая подбирает скрипты по ключевым словам из диалога.
Локальная Qwen 8B вместо облачного GPT
Облачные модели (GPT, DeepSeek и другие) давали задержку 7–20 секунд, что неприемлемо для системы реального времени. Вдобавок служба ИБ запрещала отправку транскриптов во внешние сервисы.
Команда развернула Qwen 8B на собственном GPU-сервере. Ответы получились лаконичнее, чем у 32B-версии, но для подсказок менеджеру этого достаточно. Задержка стабилизировалась на 2 секундах, все данные остались в периметре.

| Параметр | Облако (GPT и др.) | Локальная Qwen 8B |
|---|---|---|
| Задержка ответа | 7–20 секунд | ~2 секунды |
| Качество ответа | Детальное | Лаконичное, достаточное |
| Данные | Уходят во внешний сервис | Остаются в периметре |
| Стабильность | Зависит от нагрузки провайдера | Предсказуемая |
JSON-файлы вместо векторной базы
Базы знаний для RAG (справочник услуг и скрипты отработки возражений) заняли несколько мегабайт текста. Разворачивать Weaviate или Qdrant для такого объёма было избыточно. Команда загрузила структурированные JSON-файлы в память: поиск быстрый, сетевых запросов не нужно.
Результаты пилота
«Суфлёр» прошёл обкатку в пилотной группе. Технические результаты:
- Средняя задержка формирования подсказки — 2 секунды (в 2–3% случаев до 3 секунд)
- Классификация услуг — точность более 70% (команда знает, как довести до 90%)
- Качество распознавания речи — 92%, зависит от качества связи
Данных по влиянию на конверсию и KPI пока недостаточно для статистически значимых выводов. Команда планирует масштабировать систему на все команды и накопить чистую статистику.
Уроки для команд без ML-экспертизы
Опыт «Суфлёра» даёт несколько конкретных выводов для компаний, внедряющих ИИ:
- Начинать с конкретной бизнес-боли. Команда задала себе вопрос «какую проблему мы решаем?» и использовала шесть фильтрующих критериев: повторяется ли проблема массово, можно ли получить эффект за 6–12 месяцев, можно ли встроить решение в текущие процессы без революции.
- Отбрасывать «важное, но не критичное». Fine-tuning, векторные базы, петля обратной связи, собственная транскрибация — каждая из этих компонент добавляла месяцы к срокам. Команда последовательно выбирала самый простой способ закрыть 90% потребности.
- Показывать результат рано. Прототип с задержкой 15 секунд и интерфейсом «на скорую руку», но рабочий, появился через 3 недели. Это дало команде уверенность, а бизнесу — основание выделить ресурсы.
- Вовлекать смежные команды с первого спринта. Регулярные синхронизации с ИБ, инфраструктурой и бизнес-заказчиком помогли избежать экстренных переделок. Решение о локальном развёртывании одновременно закрыло и требования безопасности, и проблему задержки.
Что дальше
Команда планирует адаптировать «Суфлёр» для работы с оттоком клиентов и интегрировать подсказки напрямую в CRM (сейчас это отдельная HTML-страница). Проект стал отправной точкой для внутреннего центра компетенций по ИИ, который тиражирует опыт на новые бизнес-задачи.
Другие примеры внедрения ИИ в российском бизнесе — в нашем обзоре реальных кейсов.