Выводим модели в прод и берём на сопровождение эксплуатацию: сервинг, автоскейл, мониторинг качества и дрейфа, A/B-выкаты и откаты. Релиз модели — это старт эксплуатации, а не финиш; делаем так, чтобы она не деградировала тихо.
Сервинг под нагрузку
Инференс шардируем и масштабируем по реальной очереди, квантуем и компилируем под железо, держим p99 в бюджете и graceful degradation под перегрузом. Стоимость инференса считаем как продуктовую метрику — на тысячу запросов.
Мониторинг, который ловит дрейф
Следим за качеством по сегментам, а не только за средним: дрейф данных и просадка на сегменте поднимают алерт до того, как их заметит бизнес. Откат и A/B — штатные операции, а не подвиг.