Наша команда отвечает за эффективность обучения моделей GigaChat: от pretraining с нуля до масштабных online RL / RLHF экспериментов. Мы строим инфраструктуру, которая позволяет проводить large-scale обучение на больших MoE-моделях, добиваясь предельной эффективности использования кластера. Работаем на всех уровнях стека: от CUDA/Triton-ядер и низкоуровневых оптимизаций до распределённого обучения и ускорения инференса.
Цель — снизить стоимость и длительность обучения, сократить time-to-feedback по экспериментам, повысить стабильность и производительность пайплайна, сделать обучение новых/экспериментальных архитектур максимально эффективным и предсказуемым.
Обязанности
развивать ML-инфраструктуру и разрабатывать фреймворк распределенного обучения LLM с поддержкой 5D параллелизма и позволяет обучать LLM на всех этапах (pre-training, SFT, PEFT, multimodal, RL (RLHF/RLVR))
добиваться максимальной утилизации ресурсов и масштабирования, близкого к линейному, для крупномасштабных pretrain / online-RL обучений
профилировать и искать узкие места в обучении, формулировать и внедрять инициативы по ускорению, интегрировать и оптимизировать современные технологии распределенного обучения
оптимизировать скорость обучения под различные кластеры H100/B200 и системный/софтверный стек (CUDA, NCCL, драйверы).
Требования
- имеете 2+ лет опыта в ML/DL-инженерии, предпочтительно — в обучении LLM-моделей или построении / улучшении ML-инфраструктуры
- глубоко понимаете PyTorch: DDP/FSDP, autograd, custom ops, torch.compile, torch.autograd.Function.
- разбираетесь в distributed training и efficient deep learning: 5D (DP/TP/PP/EP/SP) - параллелизм, mixed-precision, checkpointing, offloading, профилирование и оптимизация обучения.
- понимаете архитектуру LLM: Transformer, attention (MHA/GQA/MLA), RoPE/позиционные эмбеддинги, long-context, MoE.
- владеете Python на уровне продакшн-кода (asyncio, multiprocessing, профилирование, отладка больших систем).
Условия
- крупнейшее DS&AI community — более 600 DS-специалистов банка
- дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
- возможность выбрать удобный формат работы: гибрид или офис
- комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.