SRE / Performance Engineer (GPU/AI направление)

Описание вакансии

Основная цель: обеспечение высокого уровня надёжности, производительности и управляемости GPU-решений Граус в промышленной эксплуатации за счёт проактивного мониторинга, управления мощностями и систематического анализа производительности.

Чем предстоит заниматься:

Определение ключевых индикаторов уровня обслуживания (SLI) для GPU-решений;
Формирование целевых уровней обслуживания (SLO) совместно с Заказчиками и Владельцем продукта;
Мониторинг соблюдения SLO и подготовка отчётов по отклонениям;
Анализ стоимости ошибок и принятие решений о допустимости рискованных изменений;
Проектирование и настройка систем сбора метрик, логов и трейсов (Prometheus, Grafana, ELK/Loki и др.);
Разработка процедур graceful degradation, failover и автоматического восстановления;
Настройка алертинга по критическим событиям и деградациям производительности;
Интеграция систем наблюдаемости с инцидент-менеджментом и эскалационными процедурами;
Анализ рисков отказов и критических зависимостей в архитектуре GPU-стека;
Участие в post-mortem анализе инцидентов и формирование списка мер по предотвращению повторений;
Сбор и анализ данных о потреблении ресурсов в пилотах и промышленных инсталляциях;
Подготовка рекомендаций по размерности кластеров и конфигурации для различных сценариев использования;
Формирование требований к железу и сети для новых площадок;
Определение критериев готовности релиза с точки зрения производительности и надёжности;
Участие в пилотных проектах для сбора метрик реального использования;
Подготовка отчетов по производительности и стабильности по итогам пилотов.

Для нас важно:

Высшее образование (компьютерные науки, физика, инженерия или смежные области);
Опыт в SRE, performance engineering или эксплуатации критичных систем не менее 4х лет;
Практический навык с принципами SRE: SLI/SLO/SLA, error budget, incident management;
Опыт работы с системами мониторинга и observability: Prometheus, Grafana, ELK/Loki, Jaeger/Tempo;
Опыт в нагрузочном тестирование: методы, инструменты, интерпретация результатов;
Понимание GPU-архитектуры и метрик производительности: utilization, memory bandwidth, PCIe throughput, thermal throttling;
Опыт с Linux performance tuning, kernel parameters, сетевой оптимизацией;
Наличие опыта с Capacity planning, прогнозированием ресурсов, анализом трендов;
Желательно понимание требований по лицензированию ПО и работе с проприетарными драйверами;
Готовность работать на территории РФ.