кейсы

AI-ассистент для колл-центра за 6 месяцев: как 12 бэкендеров без ML-опыта вывели проект в пилот

Российская компания построила голосового AI-ассистента «Суфлёр» силами 12 бэкендеров без ML-опыта. RAG вместо fine-tuning, Qwen 8B вместо облачного GPT, задержка 2 секунды.

Российская компания «Передовые Платежные Решения» построила голосового AI-ассистента «Суфлёр» силами собственных разработчиков, без единого data scientist в штате. Проект прошёл путь от идеи до пилота за полгода, а рабочий прототип команда показала уже через три недели. Разбираем технические решения, компромиссы и результаты.

Задача: подсказки менеджеру за 2 секунды

У компании больше 35 продуктов в портфеле. Менеджерам по продажам приходится держать в голове десятки скриптов, характеристик и аргументов для отработки возражений. B2B-цикл длинный, и потеря контекста во время звонка стоит дорого.

«Суфлёр» в реальном времени слушает разговор, определяет продукт и наличие возражения, а затем выводит на экран менеджера текстовую подсказку с нужным скриптом.

Современный колл-центр с AI-поддержкой. Источник: Voximplant

Жёсткие требования к системе:

Задержка генерации ответа не более 2 секунд, иначе подсказка приходит после того, как клиент ушёл в следующую тему
Полная обработка данных внутри периметра компании, запрет на передачу транскриптов во внешние облака
Интеграция с телефонией Voximplant
Стек: Python, FastAPI, PostgreSQL, дообученные BERT-классификаторы, локальная Qwen 8B

Команда: 12 бэкендеров учатся ML с нуля

Компания решила не нанимать внешних ML-инженеров. 12 инженеров (бэкенд-разработчики, тимлиды и техлиды) прошли обучение и освоили архитектуру нейросетей, работу с LLM, эмбеддинги и векторные базы.

Расчёт простой: внешний подрядчик потратил бы месяцы только на погружение в бизнес-контекст. Свои разработчики уже знали, как устроена CRM, как работает телефония, какие ограничения у службы информационной безопасности. Им оставалось добрать ML-навыки.

Прототип за 3 недели: от GPT до зелёного света

Первый рабочий контур собрали за три недели:

Взяли транскрипты звонков как входные данные
Написали два классификатора на BERT (по услугам и по возражениям), обучив их примерно на 1 500 транскриптах
Подготовили две векторные базы FAISS с описаниями услуг и скриптами отработки возражений
Связали всё через промпты с облачной моделью GPT
За один день накодили интерфейс на Django

Прототип работал, но с задержкой 10–15 секунд из-за обращений к облачной модели. Этого хватило для защиты идеи перед бизнесом. После одобрения начали доводить систему до продакшен-требований.

Четыре решения, которые определили архитектуру

Изначальный план включал собственный аудиоконвейер с Whisper, многоклассовые классификаторы, fine-tuning LLM и векторную базу с петлёй обратной связи. Такая система заняла бы 12–18 месяцев. Команда последовательно отказалась от всего, что не укладывалось в дедлайн.

RAG вместо fine-tuning

Fine-tuning требовал большого объёма правильно размеченных диалогов. У команды не было ни данных, ни разметчиков. Поэтому выбрали RAG — модель получает нужную информацию из базы знаний в момент запроса, а не заучивает её. Это сэкономило месяцы разработки и снизило риск галлюцинаций.

Бинарный детектор возражений вместо 15 классов

Исходный классификатор различал 15+ типов возражений, каждый требовал своего датасета и разметки. После анализа реальных диалогов команда поняла: для MVP достаточно определить сам факт возражения, без детализации типа. Многоклассовый классификатор заменили на бинарный (есть/нет). Точность выросла в разы. Типизацию возражения переложили на LLM, которая подбирает скрипты по ключевым словам из диалога.

Локальная Qwen 8B вместо облачного GPT

Облачные модели (GPT, DeepSeek и другие) давали задержку 7–20 секунд, что неприемлемо для системы реального времени. Вдобавок служба ИБ запрещала отправку транскриптов во внешние сервисы.

Команда развернула Qwen 8B на собственном GPU-сервере. Ответы получились лаконичнее, чем у 32B-версии, но для подсказок менеджеру этого достаточно. Задержка стабилизировалась на 2 секундах, все данные остались в периметре.

Voximplant Kit — платформа для телефонии, которую команда использовала для транскрибации. Источник: voximplant.com

Параметр	Облако (GPT и др.)	Локальная Qwen 8B
Задержка ответа	7–20 секунд	~2 секунды
Качество ответа	Детальное	Лаконичное, достаточное
Данные	Уходят во внешний сервис	Остаются в периметре
Стабильность	Зависит от нагрузки провайдера	Предсказуемая

JSON-файлы вместо векторной базы

Базы знаний для RAG (справочник услуг и скрипты отработки возражений) заняли несколько мегабайт текста. Разворачивать Weaviate или Qdrant для такого объёма было избыточно. Команда загрузила структурированные JSON-файлы в память: поиск быстрый, сетевых запросов не нужно.

Результаты пилота

«Суфлёр» прошёл обкатку в пилотной группе. Технические результаты:

Средняя задержка формирования подсказки — 2 секунды (в 2–3% случаев до 3 секунд)
Классификация услуг — точность более 70% (команда знает, как довести до 90%)
Качество распознавания речи — 92%, зависит от качества связи

Данных по влиянию на конверсию и KPI пока недостаточно для статистически значимых выводов. Команда планирует масштабировать систему на все команды и накопить чистую статистику.

Уроки для команд без ML-экспертизы

Опыт «Суфлёра» даёт несколько конкретных выводов для компаний, внедряющих ИИ:

Начинать с конкретной бизнес-боли. Команда задала себе вопрос «какую проблему мы решаем?» и использовала шесть фильтрующих критериев: повторяется ли проблема массово, можно ли получить эффект за 6–12 месяцев, можно ли встроить решение в текущие процессы без революции.
Отбрасывать «важное, но не критичное». Fine-tuning, векторные базы, петля обратной связи, собственная транскрибация — каждая из этих компонент добавляла месяцы к срокам. Команда последовательно выбирала самый простой способ закрыть 90% потребности.
Показывать результат рано. Прототип с задержкой 15 секунд и интерфейсом «на скорую руку», но рабочий, появился через 3 недели. Это дало команде уверенность, а бизнесу — основание выделить ресурсы.
Вовлекать смежные команды с первого спринта. Регулярные синхронизации с ИБ, инфраструктурой и бизнес-заказчиком помогли избежать экстренных переделок. Решение о локальном развёртывании одновременно закрыло и требования безопасности, и проблему задержки.

Что дальше

Команда планирует адаптировать «Суфлёр» для работы с оттоком клиентов и интегрировать подсказки напрямую в CRM (сейчас это отдельная HTML-страница). Проект стал отправной точкой для внутреннего центра компетенций по ИИ, который тиражирует опыт на новые бизнес-задачи.

Другие примеры внедрения ИИ в российском бизнесе — в нашем обзоре реальных кейсов.

AI-ассистент для колл-центра за 6 месяцев: как 12 бэкендеров без ML-опыта вывели проект в пилот

Задача: подсказки менеджеру за 2 секунды

Команда: 12 бэкендеров учатся ML с нуля

Прототип за 3 недели: от GPT до зелёного света

Четыре решения, которые определили архитектуру

RAG вместо fine-tuning

Бинарный детектор возражений вместо 15 классов

Локальная Qwen 8B вместо облачного GPT

JSON-файлы вместо векторной базы

Результаты пилота

Уроки для команд без ML-экспертизы

Что дальше

Читайте также

Похожие статьи

AI-first разработка: 170% производительности при 80% команды — кейс Zencoder и Stripe

Кейсы ИИ в российском бизнесе: 5 реальных внедрений с результатами

Автоматизация бизнеса ИИ: практические примеры и расчёт ROI

ИИ для бизнеса: практическое руководство по применению и внедрению