Инженер по эксплуатации ML-платформы

Яндекс

Инженер по эксплуатации ML-платформы

Описание вакансии

В Яндексе ежедневно запускаются десятки обучений нейросетей, использующие десятки хостов с сотнями GPU на основе облачной платформы запуска batch-задач и распределённого хранилища данных YTsaurus. Поверх этой платформы реализован набор инструментов удобного конфигурирования распределённых вычислений для обучения нейросетей. Они обеспечивают выделение облачных нод с GPU, доставку кода обучения и данных на эти ноды, отслеживание статуса и результата обучения.

Мы ищем человека, который готов погрузиться в нюансы реализации этих инструментов и на основе этих знаний будет помогать ML-инженерам эффективно использовать инфраструктуру для машинного обучения, а также решать проблемы, возникающие при запусках обучений нейросетей.

Какие задачи вас ждут:

Решение технических проблем
Вас ждут сбор и анализ первичной диагностики проблем с обучением, поиск первопричин падения или медленной работы распределённых вычислений, анализ логов и показаний мониторингов.

Взаимодействие с командами разработки инструментов ML
Вам предстоит собирать и анализировать фичреквесты и багрепорты, возникающие в рамках использования инструментов ML, и обрабатывать их вместе с разработчиками продукта для улучшения качества инструментов.

Консультирование ML-инженеров, пополнение базы знаний
Вы будете помогать ML-инженерам эффективно запускать обучения, рассказывать об улучшениях инструментов ML и объяснять нюансы их работы коллегам.

Мы ждем, что вы

  • Администрировали и настраивали Unix-системы, имеете опыт работы в Linux-консоли на уровне администратора
  • Хорошо понимаете сетевой стек
  • Умеете писать скрипты автоматизации на Bash и Python
  • Работали с системами контейнеризации и оркестрации (Docker/Kuber)
  • Занимались траблшутингом и дебагом пользовательских проблем
  • Умеете понятно и структурированно объяснять сложные вещи

Будет плюсом, если вы

  • Работали с IPv6-сетями
  • На базовом уровне понимаете распределённые вычисления (MapReduce)
  • Обладаете знаниями в области High Performance Computing, в частности MPI
  • Работали с Apache Hadoop / YTsaurus и с распределёнными хранилищами типа Lustre/BeeGFS.
  • Администрировали GPU-кластеры: знакомы с CUDA, InfiniBand, NCCL
Навыки
  • Linux
  • Docker
  • Python
Посмотреть контакты работодателя

Похожие вакансии

Яндекс
Полный день
  • Москва

  • Не указана

Рекомендуем
СБЕР
Полный день
  • Москва

  • Не указана

Рекомендуем
БЕРГЕР
Полный день
  • Москва

  • до 300000 RUR

Рекомендуем
Октопустех

ML-инженер

Октопустех

Удаленная работа
  • Москва

  • до 300000 RUR

Азиатско-Тихоокеанский Банк

ML-инженер

Азиатско-Тихоокеанский Банк

Полный день
  • Москва

  • до 300000 RUR

СБЕР
Полный день
  • Москва

  • до 300000 RUR

Rocket Science
Удаленная работа
  • Москва

  • до 300000 RUR

Совкомбанк Технологии
Полный день
  • Москва

  • до 300000 RUR

Инфосистемы Джет

MLOps - инженер

Инфосистемы Джет

Удаленная работа
  • Москва

  • до 300000 RUR

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

CV Engineer (Видеоаналитика)

ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ

Полный день
  • Москва

  • до 300000 RUR

билайн
Удаленная работа
  • Москва

  • до 300000 RUR

Диджитал Лайн

AI Engineer

Диджитал Лайн

Удаленная работа
  • Москва

  • до 300000 RUR

STARTRIBE LTD

Lead ML Engineer

STARTRIBE LTD

Удаленная работа
  • Москва

  • до 300000 RUR

СБЕР
Полный день
  • Москва

  • до 300000 RUR

Альфа-Банк

Middle/Senior ML-инженер

Альфа-Банк

Удаленная работа
  • Москва

  • до 300000 RUR

Flowwow
Удаленная работа
  • Москва

  • до 300000 RUR

Росгосстрах
Полный день
  • Москва

  • до 300000 RUR

СБЕР
Полный день
  • Москва

  • до 300000 RUR

Spice IT
Полный день
  • Москва

  • до 300000 RUR

СБЕР
Полный день
  • Москва

  • до 300000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию