AI-ассистент для колл-центра за 6 месяцев: как 12 бэкендеров без ML-опыта вывели проект в пилот

Российская компания построила голосового AI-ассистента «Суфлёр» силами 12 бэкендеров без ML-опыта. RAG вместо fine-tuning, Qwen 8B вместо облачного GPT, задержка 2 секунды.

AI-ассистент для колл-центра — архитектура RAG-системы на Qwen 8B

Российская компания «Передовые Платежные Решения» построила голосового AI-ассистента «Суфлёр» силами собственных разработчиков, без единого data scientist в штате. Проект прошёл путь от идеи до пилота за полгода, а рабочий прототип команда показала уже через три недели. Разбираем технические решения, компромиссы и результаты.

Задача: подсказки менеджеру за 2 секунды

У компании больше 35 продуктов в портфеле. Менеджерам по продажам приходится держать в голове десятки скриптов, характеристик и аргументов для отработки возражений. B2B-цикл длинный, и потеря контекста во время звонка стоит дорого.

«Суфлёр» в реальном времени слушает разговор, определяет продукт и наличие возражения, а затем выводит на экран менеджера текстовую подсказку с нужным скриптом.

Схема работы колл-центра с AI-ассистентом
Современный колл-центр с AI-поддержкой. Источник: Voximplant

Жёсткие требования к системе:

  • Задержка генерации ответа не более 2 секунд, иначе подсказка приходит после того, как клиент ушёл в следующую тему
  • Полная обработка данных внутри периметра компании, запрет на передачу транскриптов во внешние облака
  • Интеграция с телефонией Voximplant
  • Стек: Python, FastAPI, PostgreSQL, дообученные BERT-классификаторы, локальная Qwen 8B

Команда: 12 бэкендеров учатся ML с нуля

Компания решила не нанимать внешних ML-инженеров. 12 инженеров (бэкенд-разработчики, тимлиды и техлиды) прошли обучение и освоили архитектуру нейросетей, работу с LLM, эмбеддинги и векторные базы.

Расчёт простой: внешний подрядчик потратил бы месяцы только на погружение в бизнес-контекст. Свои разработчики уже знали, как устроена CRM, как работает телефония, какие ограничения у службы информационной безопасности. Им оставалось добрать ML-навыки.

Прототип за 3 недели: от GPT до зелёного света

Первый рабочий контур собрали за три недели:

  1. Взяли транскрипты звонков как входные данные
  2. Написали два классификатора на BERT (по услугам и по возражениям), обучив их примерно на 1 500 транскриптах
  3. Подготовили две векторные базы FAISS с описаниями услуг и скриптами отработки возражений
  4. Связали всё через промпты с облачной моделью GPT
  5. За один день накодили интерфейс на Django

Прототип работал, но с задержкой 10–15 секунд из-за обращений к облачной модели. Этого хватило для защиты идеи перед бизнесом. После одобрения начали доводить систему до продакшен-требований.

Четыре решения, которые определили архитектуру

Изначальный план включал собственный аудиоконвейер с Whisper, многоклассовые классификаторы, fine-tuning LLM и векторную базу с петлёй обратной связи. Такая система заняла бы 12–18 месяцев. Команда последовательно отказалась от всего, что не укладывалось в дедлайн.

RAG вместо fine-tuning

Fine-tuning требовал большого объёма правильно размеченных диалогов. У команды не было ни данных, ни разметчиков. Поэтому выбрали RAG — модель получает нужную информацию из базы знаний в момент запроса, а не заучивает её. Это сэкономило месяцы разработки и снизило риск галлюцинаций.

Бинарный детектор возражений вместо 15 классов

Исходный классификатор различал 15+ типов возражений, каждый требовал своего датасета и разметки. После анализа реальных диалогов команда поняла: для MVP достаточно определить сам факт возражения, без детализации типа. Многоклассовый классификатор заменили на бинарный (есть/нет). Точность выросла в разы. Типизацию возражения переложили на LLM, которая подбирает скрипты по ключевым словам из диалога.

Локальная Qwen 8B вместо облачного GPT

Облачные модели (GPT, DeepSeek и другие) давали задержку 7–20 секунд, что неприемлемо для системы реального времени. Вдобавок служба ИБ запрещала отправку транскриптов во внешние сервисы.

Команда развернула Qwen 8B на собственном GPU-сервере. Ответы получились лаконичнее, чем у 32B-версии, но для подсказок менеджеру этого достаточно. Задержка стабилизировалась на 2 секундах, все данные остались в периметре.

Voximplant Kit — платформа для телефонии с AI-интеграцией
Voximplant Kit — платформа для телефонии, которую команда использовала для транскрибации. Источник: voximplant.com
ПараметрОблако (GPT и др.)Локальная Qwen 8B
Задержка ответа7–20 секунд~2 секунды
Качество ответаДетальноеЛаконичное, достаточное
ДанныеУходят во внешний сервисОстаются в периметре
СтабильностьЗависит от нагрузки провайдераПредсказуемая

JSON-файлы вместо векторной базы

Базы знаний для RAG (справочник услуг и скрипты отработки возражений) заняли несколько мегабайт текста. Разворачивать Weaviate или Qdrant для такого объёма было избыточно. Команда загрузила структурированные JSON-файлы в память: поиск быстрый, сетевых запросов не нужно.

Результаты пилота

«Суфлёр» прошёл обкатку в пилотной группе. Технические результаты:

  • Средняя задержка формирования подсказки — 2 секунды (в 2–3% случаев до 3 секунд)
  • Классификация услуг — точность более 70% (команда знает, как довести до 90%)
  • Качество распознавания речи — 92%, зависит от качества связи

Данных по влиянию на конверсию и KPI пока недостаточно для статистически значимых выводов. Команда планирует масштабировать систему на все команды и накопить чистую статистику.

Уроки для команд без ML-экспертизы

Опыт «Суфлёра» даёт несколько конкретных выводов для компаний, внедряющих ИИ:

  • Начинать с конкретной бизнес-боли. Команда задала себе вопрос «какую проблему мы решаем?» и использовала шесть фильтрующих критериев: повторяется ли проблема массово, можно ли получить эффект за 6–12 месяцев, можно ли встроить решение в текущие процессы без революции.
  • Отбрасывать «важное, но не критичное». Fine-tuning, векторные базы, петля обратной связи, собственная транскрибация — каждая из этих компонент добавляла месяцы к срокам. Команда последовательно выбирала самый простой способ закрыть 90% потребности.
  • Показывать результат рано. Прототип с задержкой 15 секунд и интерфейсом «на скорую руку», но рабочий, появился через 3 недели. Это дало команде уверенность, а бизнесу — основание выделить ресурсы.
  • Вовлекать смежные команды с первого спринта. Регулярные синхронизации с ИБ, инфраструктурой и бизнес-заказчиком помогли избежать экстренных переделок. Решение о локальном развёртывании одновременно закрыло и требования безопасности, и проблему задержки.

Что дальше

Команда планирует адаптировать «Суфлёр» для работы с оттоком клиентов и интегрировать подсказки напрямую в CRM (сейчас это отдельная HTML-страница). Проект стал отправной точкой для внутреннего центра компетенций по ИИ, который тиражирует опыт на новые бизнес-задачи.

Другие примеры внедрения ИИ в российском бизнесе — в нашем обзоре реальных кейсов.


Читайте также

Telegram-канал @toolarium