Разрабатываем высокопроизводительные CUDA-операторы для PyTorch, обеспечивающие обучение и инференс мультимодальных моделей с максимальной утилизацией GPU-ресурсов. Фокус — низкоуровневая оптимизация, кастомные ядра, memory management и эффективная работа с новыми архитектурами GPU.
Обязанности
- разработка и оптимизация кастомных CUDA-операторов и расширений для PyTorch (C++/CUDA).
- профилирование и устранение узких мест в вычислительных ядрах (Nsight Compute, nvprof).
- оптимизация использования памяти (shared memory, registers, coalesced access, persistent kernels).
- реализация алгоритмов параллельных вычислений с учётом архитектурных особенностей современных GPU (Ampere, Hopper и новее).
- интеграция CUDA-оптимизаций в распределённые пайплайны обучения и инференса.
- тесная работа с командами Research и Distributed Learning для поддержки кастомных моделей и операторов.
Требования
- экспертный уровень C++ и CUDA.
- опыт оптимизации производительности для NVIDIA GPU.
- знание внутреннего устройства PyTorch (ATen, dispatcher, TensorIterator).
- навыки профилирования на GPU и поиска и устранения узких мест в реализации нейросетевых операторов.
- опыт работы с Mixed Precision и кастомными кернелами.
Бонус: Опыт с Triton, CUTLASS, cuBLASLt, NCCL; участие в open-source проектах PyTorch.
Условия
- комфортный современный офис рядом с м. Кутузовская
- формат работы гибрид
- ежегодный пересмотр зарплаты, квартальная и годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- программа адаптации и помощь руководителя на старте
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера