Разработка алгоритмов RL, в т.ч.: - проектирование, реализация и оптимизация алгоритмов обучения с подкреплением (PPO, SAC, TD3 и др.) - создание обучающих пайплайнов для online и offline RL: генерация траекторий, формирование и анализ Replay Buffer - разработка инструментов мониторинга экспериментов, анализа поведения политик и управления качеством данных.
Работа с симуляцией (IsaacSim): - построение физически реалистичных симуляций объектов и манипуляторов, включая настройку параметров массы, трения, инерции, контактов - генерация обучающих данных с использованием домен-рандомизации и крупных наборов 3D-моделей. - разработка и интеграция кастомных симуляционных сред для RL-обучения.
Работа с реальными роботами: - адаптация и отладка политик на реальном манипуляторе - дообучение моделей на реальных данных (Sim2Real adaptation) - анализ ошибок и повышение устойчивости поведения при переносе «симуляция-реальность».
Интеграция управления: - реализация архитектуры «RL+классическое управление» (PID, MPC, LQR и др.) - интеграция компонентов в ROS-пайплайны и системные модули управления роботом.
Инженерные задачи и разработка инструментов: - написание чистого, поддерживаемого кода (ООП, документация, тестирование) - участие в разработке архитектуры внутренних библиотек и инфраструктуры - оптимизация вычислительных пайплайнов, ускорение симуляционных циклов.
Требования:
Обязательное наличие оконченного высшего технического образования.
Уверенное владение языком Python, желательный опыт промышленной разработки
Опыт работы с фреймворком PyTorch
Наличие практического опыта разработки алгоритмов RL (PPO, SAC, TD3 и др.)
Опыт подготовки данных для Offline RL
Базовые навыки компьютерного зрения в задачах управления и манипуляции (работа с RGB/RGB-D, выделение объектов, простые модели восприятия)
Понимание кинематики и динамики манипуляторов
Опыт разработки собственных сред или сценариев в симуляции.
Условия:
работа в ведущем техническом вузе страны, в городе Долгопрудный (рядом со станцией Новодачная МЦД-1 или 15 минут от метро Алтуфьево, Ховрино, Физтех);
оформление в соответствии с ТК РФ;
возможность бесплатного посещения бассейна и тренажерного зала;
в соответствии с ТК РФ работники сферы образования обязаны предоставить справку о наличии (отсутствии) судимости и (или) факта уголовного преследования, срок изготовления которой может быть до 30 дней, просим заранее позаботиться о её получении.