SRE / Performance Engineer (GPU/AI направление)

Т1

SRE / Performance Engineer (GPU/AI направление)

Описание вакансии

Основная цель: обеспечение высокого уровня надёжности, производительности и управляемости GPU-решений Граус в промышленной эксплуатации за счёт проактивного мониторинга, управления мощностями и систематического анализа производительности.

Чем предстоит заниматься:

  • Определение ключевых индикаторов уровня обслуживания (SLI) для GPU-решений;
  • Формирование целевых уровней обслуживания (SLO) совместно с Заказчиками и Владельцем продукта;
  • Мониторинг соблюдения SLO и подготовка отчётов по отклонениям;
  • Анализ стоимости ошибок и принятие решений о допустимости рискованных изменений;
  • Проектирование и настройка систем сбора метрик, логов и трейсов (Prometheus, Grafana, ELK/Loki и др.);
  • Разработка процедур graceful degradation, failover и автоматического восстановления;
  • Настройка алертинга по критическим событиям и деградациям производительности;
  • Интеграция систем наблюдаемости с инцидент-менеджментом и эскалационными процедурами;
  • Анализ рисков отказов и критических зависимостей в архитектуре GPU-стека;
  • Участие в post-mortem анализе инцидентов и формирование списка мер по предотвращению повторений;
  • Сбор и анализ данных о потреблении ресурсов в пилотах и промышленных инсталляциях;
  • Подготовка рекомендаций по размерности кластеров и конфигурации для различных сценариев использования;
  • Формирование требований к железу и сети для новых площадок;
  • Определение критериев готовности релиза с точки зрения производительности и надёжности;
  • Участие в пилотных проектах для сбора метрик реального использования;
  • Подготовка отчетов по производительности и стабильности по итогам пилотов.

Для нас важно:

  • Высшее образование (компьютерные науки, физика, инженерия или смежные области);
  • Опыт в SRE, performance engineering или эксплуатации критичных систем не менее 4х лет;
  • Практический навык с принципами SRE: SLI/SLO/SLA, error budget, incident management;
  • Опыт работы с системами мониторинга и observability: Prometheus, Grafana, ELK/Loki, Jaeger/Tempo;
  • Опыт в нагрузочном тестирование: методы, инструменты, интерпретация результатов;
  • Понимание GPU-архитектуры и метрик производительности: utilization, memory bandwidth, PCIe throughput, thermal throttling;
  • Опыт с Linux performance tuning, kernel parameters, сетевой оптимизацией;
  • Наличие опыта с Capacity planning, прогнозированием ресурсов, анализом трендов;
  • Желательно понимание требований по лицензированию ПО и работе с проприетарными драйверами;
  • Готовность работать на территории РФ.
Навыки
  • GPU
  • Linux
  • SRE
  • Capacity Planning
  • Prometheus
  • Grafana
Посмотреть контакты работодателя

Похожие вакансии

Т1
  • Казань

  • Не указана

Рекомендуем
ICL Системные технологии
  • Казань

  • Не указана

Рекомендуем
ICL Системные технологии
  • Казань

  • Не указана

Рекомендуем
Хомяк Елена Александровна

AI-agnostic Developer/Product Software Engineer (Middle+ / Senior-)

Хомяк Елена Александровна

  • Казань

  • до 350000 RUR

Haulmont
  • Казань

  • до 200000 RUR

ICL Системные технологии

Pre-sale инженер

ICL Системные технологии

  • Казань

  • до 200000 RUR

Яндекс Крауд
  • Казань

  • до 125000 RUR

Компания LAVOS

Инженер ПТО

Компания LAVOS

  • Казань

  • до 120000 RUR

Maxima
  • Казань

  • до 120000 RUR

НПК Финист-софт

Data Engineer / Дата-инженер

НПК Финист-софт

  • Казань

  • до 120000 RUR

Велес
  • Казань

  • до 200000 RUR

ГК ДИАТ
  • Казань

  • до 140000 RUR

Учускин Дмитрий Петрович
  • Казань

  • до 140000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию