Строим RL-агентов для задач управления, где система нелинейна, нестационарна и сопротивляется классическим контроллерам. Агент учится политике, которую невозможно прописать руками.
Честная симуляция и sim-to-real
Под каждую задачу собираем симуляционную среду с честной физикой и доменной рандомизацией — чтобы политика переносилась с симуляции на железо (sim-to-real), а не разваливалась на первом же реальном шаге.
Инженерные метрики, а не награда ради награды
Считаем устойчивость, запас по безопасности и поведение в хвостовых сценариях — то, что определяет, поедет агент в проде или нет.