Мы ищем опытного и стратегически мыслящего руководителя по AI инфраструктуре, который возглавит команду по высокопроизводительной инфраструктуре для искусственного интеллекта. Ваша цель — создавать и масштабировать надежную, эффективную и безопасную инфраструктуру, которая позволяет нашим Data Scientist’ам и ML Engineer’ам экспериментировать, обучать сложные модели и беспрепятственно выводить их в продакшен.
Что нужно будет делать:
- формировать и реализовывать технологическую стратегию развития AI/ML-инфраструктуры
- проектировать и внедрять масштабируемые и отказоустойчивую инфраструктуру для обучения и инференса моделей
- обеспечивать эксплуатацию инфраструктуры полного цикла: планирование, развертывание, мониторинг, оптимизация затрат
- руководить командой инженеров (MLOps/ML Platform, DevOps, SRE) и обеспечивать выполнение задач в срок
- управлять AI/HPC-кластерами, GPU-узлами и обеспечивать эффективную утилизацию ресурсов
- внедрять новые технологии и инструменты в области высокопроизводительных вычислений, сетей и систем хранения
- взаимодействовать с командами Data Science, Machine Learning и бизнес-подразделениями для согласования требований
- формировать и поддерживать стандарты надежности, безопасности и эффективности инфраструктуры.
- поддерживать актуальную техническую документацию.
Мы ожидаем от кандидата:
- опыт руководства или тимлид-роли в построении и эксплуатации ML/AI-инфраструктуры (от 2 лет)
- практический опыт работы с AI/HPC-кластерами и GPU-инфраструктурой (NVIDIA)
- опыт построения / дизайна AI инфраструктуры в ЦОД (проектирование кластеров)
- опыт работы / понимание Kubernetes и SLURM c их экосистемой (Helm, Operators)
- опыт использования MLOps-фреймворков (Kubeflow, MLflow, Airflow/Flyte, Vertex AI, Sagemaker и др.)
- знание систем хранения и работы с большими данными (S3, GCS, NFS, Lustre)
- опыт построения инфраструктуры для LLM и распределённого обучения моделей
- понимание жизненного цикла ML-моделей и задач эксплуатации на всех этапах
- навыки управления командой, планирования ресурсов и контроля бюджета
- опыт работы с on-premise инфраструктурой и понимание принципов масштабирования.
Условия, которые мы предлагаем:
- офис рядом с м. Кутузовская
- офисный формат работы, после испытательного срока гибридный формат (3 дня офис + 2 дня удалённо)
- ежегодный пересмотр зарплаты и годовая премия
- уникальная система обучения Сбера для профессионального
- и карьерного развития
- расширенный ДМС и льготное страхование для семьи
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера
- корпоративная пенсионная программа.