Это был большой командный AI-проект в рамках моей стажировки — с живыми звонками, реальными бизнес-процессами и вполне измеримыми KPI.
Если коротко, мы собирали единый аналитический пайплайн, который:
- автоматически расшифровывает звонки
- проверяет, как операторы соблюдают скрипты
- анализирует эмоции
- ищет по звонкам не только по словам, но и по смыслу**
- формирует удобные отчёты для руководителя
и всё это — со строгим соблюдением ФЗ-152 и полной анонимизацией данных.
🎯 Проблема: контроль качества «вручную» не работает
До нашего проекта всё выглядело типично для большого колл-центра:
— QA-менеджеры слушали *лишь часть звонков вручную*
— нагрузка была огромная
— оценки часто были субъективными
— системные проблемы обнаруживались только «на глаз»
По сути, бизнес **не видел полной картины**.
Цель проекта была амбициозной, но очень понятной:
> 📌 анализировать 100% звонков автоматически
> 📌 показывать нарушения и проблемы по фактам
> 📌 давать руководству осмысленную аналитику
И, конечно, делать всё это аккуратно и законно — без утечки персональных данных.
⚙️ Решение: как мы построили систему
🔊 Транскрибация с нормализацией речи
От качества распознавания речи зависело буквально всё. Команда провела исследование нескольких ASR-моделей — и мы остановились на **WhisperX (large-v2)** как на оптимальной по точности и стабильности.
Плюс реализовали:
✔ нормализацию звука через FFmpeg
✔ раздельную обработку каналов оператор/клиент
✔ текстовую нормализацию (цифры, спец-символы, «мусор» речи)
Фактическая точность — ~85% (WER=15%).
Да, это ниже целевых 95% — и главная причина оказалась в качестве исходных записей. Поэтому мы подготовили **практические рекомендации по улучшению звукозаписи** — и это тоже стало ценностью проекта.
🔐 Анонимизация ПДн: без компромиссов
Мы реализовали двухступенчатый подход:
✔ правила и регулярки — телефоны, адреса, документы, email и т.д.
✔ локальный ИИ-анализ сложных случаев
Результат:
- данные не покидают локальную инфраструктуру
- анонимизация достигает 100% покрытия
- соответствие **ФЗ-152 — гарантировано
Плюс механизм проверки JSON-структур — чтобы исключить «скрытые» утечки.
📋 Проверка соблюдения скриптов
Система:
— анализирует каждый звонок
— определяет его тип
— применяет правильную регламент-матрицу
— выставляет балл по 10 критериям
— прикладывает дословные цитаты
А при критических ошибках — **обнуляет балл автоматически**.
Это убрало субъективность и превратило контроль качества в измеряемый процесс.
🔍 Моя зона ответственности — контекстно-семантический поиск
Самая интересная часть моей работы 🙂
Я участвовал в разработке гибридного поискового движка, который понимает не только слова — но и смысл.
Мы объединили два подхода:
🔹 BM25 — для быстрого поиска по ключевым словам
🔹 E5-large — для семантического поиска по смыслу
Дальше — **интеллектуальное ранжирование по 7 критериям**, чтобы наверх попадали действительно полезные фрагменты.
Мы применили:
✔ подготовку диалогов и структуры данных
✔ настройку и тестированием семантических эмбеддингов
✔ проверку релевантности результатов
✔ отладку гибридного ранжирования
Это позволило системе:
— находить нужные реплики даже при неточном запросе
— выдавать их с контекстом
— работать **< 2 секунд на запрос**
Для бизнеса это значит одно:
не нужно слушать сотни звонков — нужные находятся за секунды.
📂 Подготовка датасета
Чтобы поисковая система «понимала» диалоги, я помогал готовить датасет:
✔ очищал и структурировал диалоги
✔ разделял роли оператор/клиент
✔ сохранял временные метки
✔ формировал корпус для обучения и теста поиска
✔ помогал выстраивать формат хранения
Этот датасет стал основой обучения и объективной оценки поиска.
Эмоциональный анализ
Система также определяет эмоции:
нейтральность • радость • грусть • гнев • страх • отвращение • удивление
Отдельно — по оператору и клиенту.
И это даёт интересные управленческие инсайты.
🖥 Web-интерфейс и отчёты
Мы собрали всё в единый интерфейс и подготовили 7 аналитических отчётов:
- сводка по операторам
- оценка каждого звонка
- частые нарушения
- слабые навыки
- проблемные темы
- динамика по неделям
Руководитель видит готовую картину — без Excel-акробатики и ручного анализа.
📊 Результаты
В итоге мы создали **живой работающий прототип**, который:
✔ полностью анонимизирует ПДн
✔ оценивает качество по чек-листу с цитатами
✔ **ищет по звонкам по смыслу, а не только по словам**
✔ анализирует эмоции
✔ формирует управленческие отчёты
✔ работает в Windows-среде и легко масштабируется
Да — **точность ASR пока 85%, а не 95%**.
Но это честный результат, и он помог выявить реальные зоны роста — начиная с качества звукозаписи.
🚀 Что дальше
Мы заложили базу для:
- fine-tuning ASR
- интеграции с CRM
- подсказок операторам «на лету»
- чат-бот-симулятора для обучения
- потоковой транскрибации
И самое главное — **для полной автоматизации контроля качества без потери объективности**.
Вывод
Для меня этот проект стал не просто стажировкой.
Это был реальный опыт участия в большом AI-продукте, где мой вклад напрямую влиял на результат — особенно в части **гибридного поиска и подготовки датасета.
И это тот случай, когда AI действительно решает бизнес-задачу, а не просто существует ради технологии.