Диаризация в речевой аналитике: фикс разделения оператор/клиент

{
  "call_id": "773b-41A",
  "audio_format": "8kHz_mono",
  "transcription": "здравствуйте спасибо за ожидание вы списали деньги мрази я сейчас полицию вызову успокойтесь пожалуйста мы все вернем",
  "matched_tags": ["greeting", "obscene_language", "promise_to_solve"]
}

Вот так выглядит типичный payload коробки, за которую ваш бизнес заплатил пару десятков миллионов. Клиент орет, оператор читает скрипт, а система радостно рапортует: звонок успешен, скрипт выполнен, но обнаружен мат. Кто ругался? Кого перебивали? Без разницы. Текст слит в шизофренический монолог.

Диаризация речи в речевой аналитике контакт-центра: если система не умеет определять, кто говорит — оператор или клиент, весь ваш датасет превращается в тыкву. Это не контроль качества. Это самообман за ваши же деньги.

Почему наивная кластеризация ложится под нагрузкой

Большинство вендоров продают ASR (распознавание речи), к которому изолентой примотан базовый алгоритм разделения спикеров. На идеальном студийном звуке он работает. На реальной телефонии 8 kHz с кросс-током — ложится замертво. Когда собеседники говорят одновременно, моно-склейка превращается в кашу. Наивная диаризация сыплется на коротких репликах. Все эти «угу», «ага» и «да» длительностью до 1.5 секунд модель просто игнорирует или лепит к чужой дорожке. В итоге метрика перебиваний летит в пропасть.

Чтобы вытащить правду, нужен жесткий пайплайн. Сначала VAD (Voice Activity Detection) вырезает тишину. Затем — диаризация. Наш подход в MoranaLabs: мы используем тюненный pyannote или легковесные локальные эмбеддеры, которые выживают на шумном фоне. Только после этого куски аудио летят в ASR, а затем накладываются на таймлайны и роли из CRM или телефонии по каналам. Оператор. Клиент. Секунда в секунду. Без этого определить, кто говорит (оператор или клиент), в сложных сценариях технически невозможно.

С эмоциями все еще хуже. Распознавание конкретных эмоций один-в-один по голосу — чистый маркетинг. Нейросеть не отличит саркастичное «спасибо» от искреннего по одной спектрограмме. Честно говоря, DER (Diarization Error Rate) на русской телефонии даже в лучших системах колеблется от 8% до 20%. То, что реально измеримо — это арусал (энергетика, амплитуда голоса), доля негатива и резкая смена тона по ходу разговора. Если клиент начал звонок спокойно, а к третьей минуте его арусал пробил потолок — это эскалация. И если в этот момент его перебил оператор — это фол. Негатив клиента просто тонет в длинной реплике скрипта, если дорожки не разделены.

Метрики, которые врали без разделения: доля перебиваний именно оператором, time-to-first-response, реальный скрипт-комплаенс по ролям. Вы штрафовали оператора за мат, который кричал клиент в параллель. Вы засчитывали отработку возражений там, где оператор просто переехал клиента танком, не дав вставить слово. Экономика пересчета бьет по бюджету: пересоберите метрику контроля качества на диаризованных данных, и вы увидите, что 40% премий выплачены или удержаны ошибочно. Цифры отрезвляют.

Цена ошибки и on-premise паранойя

Гнать аудио с биометрией и ПДн в чужое облако — статья. CISO вас повесит, и будет прав. 152-ФЗ не прощает экспериментов с SaaS. Speech analytics на русском on-prem — базовое требование выживания. Модели должны крутиться внутри вашего контура, на ваших GPU. Железо окупается в первый же год за счет отсутствия штрафов от регулятора и утечек баз.

7 признаков, что ваша речевая аналитика считает мусор

Моно-склейка на входе. Система ест один файл без стерео-разделения и пытается угадать спикеров по контексту слов.
Отсутствие кросс-тока в отчетах. Если нет метрики «клиент перебил оператора на X секунде длительностью Y», диаризации нет.
Слепые зоны до 1.5 секунд. Система не видит подтверждающие междометия, искажая time-to-first-response.
Эмоции как классификатор. Вам продают дашборды с «уровнем радости 74%» вместо анализа арусала.
Скрипт считается по ключевым словам. Вне зависимости от того, кто произнес слово-маркер.
Нулевой DER в презентациях. Вендор обещает 100% точность разделения. Он лжет.
SaaS-only. Анализ эмоций в звонке требует отправки чувствительных данных за периметр.

Если нашли у себя больше двух пунктов — пора перестраивать архитектуру. Аудит и внедрение речевой аналитики on-prem с честной диаризацией и привязкой ролей — то, с чем MoranaLabs помогает enterprise-командам. Приходите с записями. Разберем.

Диаризация в речевой аналитике: почему 100% звонков без разделения оператор/клиент считаются мусором — разбор провала и фикс

Почему наивная кластеризация ложится под нагрузкой

Цена ошибки и on-premise паранойя

7 признаков, что ваша речевая аналитика считает мусор

Новые статьи — на почту

Edge AI или облако: когда тащить нейросеть на железо

Сверка двух документов: почему это не diff, а задача сопоставления

ИИ в 1С:ERP и УНФ: чем отличается внедрение на разных конфигурациях

Локальная LLM для 1С: когда нельзя в облако

Опишите задачу — ответим как инженеры.