RL-управление нестационарным технологическим процессом

Задача

Технологический процесс с сильной нелинейностью и дрейфом параметров во времени. Каскад ПИД-регуляторов требовал постоянной перенастройки и проседал на переходных режимах. Нужно управление, которое адаптируется само.

Подход

Собрали симуляционную среду с честной физикой процесса и доменной рандомизацией параметров — чтобы политика не переобучилась на один режим. Обучили RL-агента, заложив в функцию награды не только целевой показатель, но и запас по безопасности и поведение в хвостовых сценариях.

Перенос на реальное оборудование (sim-to-real) шёл поэтапно: сначала теневой режим параллельно с ПИД, затем — постепенная передача управления под контролем инженерных метрик.

Стек

PyTorch · кастомная sim-среда · domain randomization · gRPC (мост к SCADA)

Результат

+31% к целевой эффективности на переходных режимах.
Стабильность политики в хвостовых сценариях — проверена на симуляции до выката.
Отказ от ручной перенастройки регуляторов.

Задача

Подход

Результат

+31% к целевой эффективности на переходных режимах.

Стабильность политики в хвостовых сценариях — проверена на симуляции до выката.

Отказ от ручной перенастройки регуляторов.

RL-управление нестационарным технологическим процессом

Задача

Подход

Стек

Результат

Мульти-камерный трекинг матча в прямом эфире с broadcast-задержкой

Семантический поиск по миллиардам векторов с p99 в единицы мс

Генерация товарных изображений на потоке: диффузия on-prem

Опишите задачу — ответим как инженеры.

RL-управление нестационарным технологическим процессом

Задача

Подход

Стек

Результат

Мульти-камерный трекинг матча в прямом эфире с broadcast-задержкой

Семантический поиск по миллиардам векторов с p99 в единицы мс

Генерация товарных изображений на потоке: диффузия on-prem