Задача
Технологический процесс с сильной нелинейностью и дрейфом параметров во времени. Каскад ПИД-регуляторов требовал постоянной перенастройки и проседал на переходных режимах. Нужно управление, которое адаптируется само.
Подход
Собрали симуляционную среду с честной физикой процесса и доменной рандомизацией параметров — чтобы политика не переобучилась на один режим. Обучили RL-агента, заложив в функцию награды не только целевой показатель, но и запас по безопасности и поведение в хвостовых сценариях.
Перенос на реальное оборудование (sim-to-real) шёл поэтапно: сначала теневой режим параллельно с ПИД, затем — постепенная передача управления под контролем инженерных метрик.
Стек
PyTorch · кастомная sim-среда · domain randomization · gRPC (мост к SCADA)
Результат
- +31% к целевой эффективности на переходных режимах.
- Стабильность политики в хвостовых сценариях — проверена на симуляции до выката.
- Отказ от ручной перенастройки регуляторов.