Исследователь-разработчик в DL/RL (дообучение LLM, RLHF, асинхронный RL)

МФТИ

Исследователь-разработчик в DL/RL (дообучение LLM, RLHF, асинхронный RL)

Долгопрудный, Первомайская улица, 3

Описание вакансии

О проекте:

Центр когнитивного моделирования запускает исследовательско-инженерный проект по дообучению LLM для задач рассуждения (Qwen, Llama и другие модели с открытыми весами).

Наша цель: значительно ускорить обучение без заметной потери качества за счёт асинхронного RL, off-policy-коррекций, постепенного усложнения задач и квантизованного инференса.

Мы ищем strong junior/ middle разработчика с уклоном в research, который не просто дообучает модели, а предлагает идеи и проверяет их экспериментально.

Чем тебе предстоит заниматься:

  • Исследовать и реализовывать методы асинхронного RL и дообучения LLM
  • Предлагать исследовательские гипотезы, ставить эксперименты и проверять их на задачах рассуждения
  • Развивать инфраструктуру обучения и инференса: PyTorch, vLLM/TGI, низкоразрядный инференс
  • Строить воспроизводимые пайплайны и быстро проверять исследовательские гипотезы
  • При желании участвовать в подготовке A* публикаций по результатам работы.

Чего мы ждём от тебя:

Нам важны сильная база, самостоятельность и способность быстро входить в сложную исследовательскую задачу.
Если у вас есть сильная база в одной из областей, то эта вакансия для вас:

  • Уверенный Python / PyTorch и опыт обучения моделей
  • Сильный опыт хотя бы в одной из областей:

RL / RLHF / PPO / DPO / GRP

дообучение LLM

распределённое обучение на нескольких GPU

  • Умение читать статьи, превращать идеи в эксперименты и доводить их до результата
  • Linux, Docker, Git
  • Технический английский на высоком уровне.

Будет плюсом:

  • Off-policy RL, importance sampling, SAC, V-trace
  • DeepSpeed, FSDP, VERL, OpenRLHF, SampleFactory
  • vLLM или TGI
  • FP8 / INT8 quantization
  • Curriculum learning - постепенное усложнение задач / адаптивная выборка
  • Опыт работы с бенчмарками на задачи рассуждения
  • Публикации на сильных конференциях

Важно

Не обязательно совпадать со всем списком - глубина в одной из областей и способность быстро разбираться в новом для нас важнее формального покрытия.

Что мы предлагаем:

  • Задачу на переднем крае: асинхронный RL и дообучение LLM для задач рассуждения;
  • Доступ к GPU-кластеру и возможность быстро проверять гипотезы;
  • Сильную исследовательскую команду с опытом публикаций на ICLR, NeurIPS, AAAI, ACL и других ведущих международных конференциях;

Организационные детали:

  • Работа в ведущем техническом вузе страны, в городе Долгопрудный (рядом со станцией Новодачная МЦД-1 или 15 минут от метро Алтуфьево, Ховрино, Физтех);
  • Оформление в соответствии с ТК РФ;
  • Возможность бесплатного посещения бассейна и тренажерного зала, концертов, тренингов, и других интересных мероприятий в кампусе МФТИ;
  • Перед началом процесса собеседования просим вас заказать справку о наличии (отсутствии) судимости. Она понадобится на финальном этапе трудоустройства.
    Такую справку можно заказать на Госуслугах в электронном виде.
    Срок изготовления справки может занять до 30 дней, просим заранее позаботиться о её получении.

Институт ИИ МФТИ – ведущий институт по искусственному интеллекту в России. В состав Института входят сильнейшие ученые и ключевые лаборатории Физтеха по направлениям: оптимизация для ИИ, Робототехника, Генеративный ИИ, Компьютерное зрение и Математическое моделирование. Цель Института - создание прорывных научных исследований и прикладных разработок для ключевых отраслей экономики страны.

Немного о нас в цифрах:

1-е место среди технических вузов России в международных рейтинге THE и CWUR (2026);

1-е место в предметном рейтинге RAEX по направлению "Информационные технологии" (2025);

1-е место в рейтинге передовых инженерных школ (2025);

1-е место в рейтинге вузов России по качеству приёма (2025);

Лидер в рейтинге вузов по качеству подготовки специалистов в области искусственного интеллекта (2025).

Навыки
  • PyTorch
  • Python
  • PPO
  • RL for LLM
  • GRPO
  • DDP
  • FSDP
  • vLLM
  • Efficient inference
  • LLM fine-tuning
  • Distributed training
  • quantization
Посмотреть контакты работодателя

Адрес

Похожие вакансии

МФТИ
  • Москва

  • до 250000 RUR

Рекомендуем
Яндекс
  • Москва

  • до 250000 RUR

Рекомендуем
Т-Банк
  • Москва

  • от 155300 RUR

LLM/RAG/AI Engineer (GigaChat Enterprise)

Салют для Бизнеса

  • Москва

  • от 155300 RUR

СБЕР
  • Москва

  • от 183100 RUR

RWB (Wildberries & Russ)
  • Москва

  • от 183100 RUR

Электронная торговая площадка Газпромбанка

Системный аналитик (в проект по ИИ)

Электронная торговая площадка Газпромбанка

  • Москва

  • от 170000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию