{
"call_id": "773b-41A",
"audio_format": "8kHz_mono",
"transcription": "здравствуйте спасибо за ожидание вы списали деньги мрази я сейчас полицию вызову успокойтесь пожалуйста мы всё вернём",
"matched_tags": ["greeting", "obscene_language", "promise_to_solve"]
}Вот так выглядит типичный payload коробки, за которую ваш бизнес заплатил пару десятков миллионов. Клиент орёт, оператор читает скрипт, а система радостно рапортует: звонок успешен, скрипт выполнен, но обнаружен мат. Кто ругался? Кого перебивали? Без разницы. Текст слит в шизофренический монолог.
Диаризация речи в речевой аналитике контакт-центра: если система не умеет определять, кто говорит — оператор или клиент, весь ваш датасет превращается в тыкву. Это не контроль качества. Это самообман за ваши же деньги.
Почему наивная кластеризация ложится под нагрузкой
Большинство вендоров продают ASR (распознавание речи), к которому изолентой примотан базовый алгоритм разделения спикеров. На идеальном студийном звуке он работает. На реальной телефонии 8 kHz с кросс-током — ложится замертво. Когда собеседники говорят одновременно, моно-склейка превращается в кашу. Наивная диаризация сыплется на коротких репликах. Все эти «угу», «ага» и «да» длительностью до 1.5 секунд модель просто игнорирует или лепит к чужой дорожке. В итоге метрика перебиваний летит в пропасть.
Чтобы вытащить правду, нужен жёсткий пайплайн. Сначала VAD (Voice Activity Detection) вырезает тишину. Затем — диаризация. Наш подход в Morana Labs: мы используем тюненный pyannote или легковесные локальные эмбеддеры, которые выживают на шумном фоне. Только после этого куски аудио летят в ASR, а затем накладываются на таймлайны и роли из CRM или телефонии по каналам. Оператор. Клиент. Секунда в секунду. Без этого определить, кто говорит (оператор или клиент), в сложных сценариях технически невозможно.
С эмоциями всё ещё хуже. Распознавание конкретных эмоций один-в-один по голосу — чистый маркетинг. Нейросеть не отличит саркастичное «спасибо» от искреннего по одной спектрограмме. Честно говоря, DER (Diarization Error Rate) на русской телефонии даже в лучших системах колеблется от 8% до 20%. То, что реально измеримо — это арусал (энергетика, амплитуда голоса), доля негатива и резкая смена тона по ходу разговора. Если клиент начал звонок спокойно, а к третьей минуте его арусал пробил потолок — это эскалация. И если в этот момент его перебил оператор — это фол. Негатив клиента просто тонет в длинной реплике скрипта, если дорожки не разделены.
Метрики, которые врали без разделения: доля перебиваний именно оператором, time-to-first-response, реальный скрипт-комплаенс по ролям. Вы штрафовали оператора за мат, который кричал клиент в параллель. Вы засчитывали отработку возражений там, где оператор просто переехал клиента танком, не дав вставить слово. Экономика пересчёта бьёт по бюджету: пересоберите метрику контроля качества на диаризованных данных, и вы увидите, что 40% премий выплачены или удержаны ошибочно. Цифры отрезвляют.
Цена ошибки и on-premise паранойя
Гнать аудио с биометрией и ПДн в чужое облако — статья. CISO вас повесит, и будет прав. 152-ФЗ не прощает экспериментов с SaaS. Speech analytics на русском on-prem — базовое требование выживания. Модели должны крутиться внутри вашего контура, на ваших GPU. Железо окупается в первый же год за счёт отсутствия штрафов от регулятора и утечек баз.
7 признаков, что ваша речевая аналитика считает мусор
- Моно-склейка на входе. Система ест один файл без стерео-разделения и пытается угадать спикеров по контексту слов.
- Отсутствие кросс-тока в отчётах. Если нет метрики «клиент перебил оператора на X секунде длительностью Y», диаризации нет.
- Слепые зоны до 1.5 секунд. Система не видит подтверждающие междометия, искажая time-to-first-response.
- Эмоции как классификатор. Вам продают дашборды с «уровнем радости 74%» вместо анализа арусала.
- Скрипт считается по ключевым словам. Вне зависимости от того, кто произнёс слово-маркер.
- Нулевой DER в презентациях. Вендор обещает 100% точность разделения. Он лжёт.
- SaaS-only. Анализ эмоций в звонке требует отправки чувствительных данных за периметр.
Если нашли у себя больше двух пунктов — пора перестраивать архитектуру. Аудит и внедрение речевой аналитики on-prem с честной диаризацией и привязкой ролей — то, с чем Morana Labs помогает enterprise-командам. Приходите с записями. Разберём.