DL/LLM engineer (Pretrain/RL Efficiency)

СБЕР

DL/LLM engineer (Pretrain/RL Efficiency)

Описание вакансии

Наша команда отвечает за эффективность обучения моделей GigaChat: от pretraining с нуля до масштабных online RL / RLHF экспериментов. Мы строим инфраструктуру, которая позволяет проводить large-scale обучение на больших MoE-моделях, добиваясь предельной эффективности использования кластера. Работаем на всех уровнях стека: от CUDA/Triton-ядер и низкоуровневых оптимизаций до распределённого обучения и ускорения инференса.

Цель — снизить стоимость и длительность обучения, сократить time-to-feedback по экспериментам, повысить стабильность и производительность пайплайна, сделать обучение новых/экспериментальных архитектур максимально эффективным и предсказуемым.

Обязанности

развивать ML-инфраструктуру и разрабатывать фреймворк распределенного обучения LLM с поддержкой 5D параллелизма и позволяет обучать LLM на всех этапах (pre-training, SFT, PEFT, multimodal, RL (RLHF/RLVR))

добиваться максимальной утилизации ресурсов и масштабирования, близкого к линейному, для крупномасштабных pretrain / online-RL обучений

профилировать и искать узкие места в обучении, формулировать и внедрять инициативы по ускорению, интегрировать и оптимизировать современные технологии распределенного обучения

оптимизировать скорость обучения под различные кластеры H100/B200 и системный/софтверный стек (CUDA, NCCL, драйверы).

Требования

  • имеете 2+ лет опыта в ML/DL-инженерии, предпочтительно — в обучении LLM-моделей или построении / улучшении ML-инфраструктуры
  • глубоко понимаете PyTorch: DDP/FSDP, autograd, custom ops, torch.compile, torch.autograd.Function.
  • разбираетесь в distributed training и efficient deep learning: 5D (DP/TP/PP/EP/SP) - параллелизм, mixed-precision, checkpointing, offloading, профилирование и оптимизация обучения.
  • понимаете архитектуру LLM: Transformer, attention (MHA/GQA/MLA), RoPE/позиционные эмбеддинги, long-context, MoE.
  • владеете Python на уровне продакшн-кода (asyncio, multiprocessing, профилирование, отладка больших систем).

Условия

  • крупнейшее DS&AI community — более 600 DS-специалистов банка
  • дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
  • возможность выбрать удобный формат работы: гибрид или офис
  • комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32
  • ежегодный пересмотр зарплаты, годовая премия
  • корпоративный спортзал и зоны отдыха
  • более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
  • расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
  • ипотека выгоднее до 7% для каждого сотрудника
  • бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
  • вознаграждение за рекомендацию друзей в команду Сбера.
Посмотреть контакты работодателя

Похожие вакансии

СБЕР
  • Москва

  • Не указана

Рекомендуем

ML/AI Инженер

Платформа Трим

  • Москва

  • Не указана

Рекомендуем
Яндекс
  • Москва

  • Не указана

Рекомендуем
СБЕР
  • Москва

  • Не указана

АРЕАЛ
  • Москва

  • Не указана

СБЕРКОРУС
  • Москва

  • Не указана

AI - инженер

Онивс Рус

  • Москва

  • Не указана

  • Москва

  • Не указана

RWB (Wildberries & Russ)

ML Engineer (AntiDDoS)

RWB (Wildberries & Russ)

  • Москва

  • Не указана

СБЕР
  • Москва

  • Не указана

Секвойя Сервис

AI Engineer

Секвойя Сервис

  • Москва

  • до 200000 RUR

Онлайн-школа Тетрика

ML Engineer

Онлайн-школа Тетрика

  • Москва

  • до 200000 RUR

Звук
  • Москва

  • до 200000 RUR

Леста Игры

AI Engineer

Леста Игры

  • Москва

  • до 200000 RUR

СБЕР

Data Engineer

СБЕР

  • Москва

  • до 295000 RUR

СБЕР
  • Москва

  • до 295000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию