Основная цель: обеспечение высокого уровня надёжности, производительности и управляемости GPU-решений Граус в промышленной эксплуатации за счёт проактивного мониторинга, управления мощностями и систематического анализа производительности.
Чем предстоит заниматься:
- Определение ключевых индикаторов уровня обслуживания (SLI) для GPU-решений;
- Формирование целевых уровней обслуживания (SLO) совместно с Заказчиками и Владельцем продукта;
- Мониторинг соблюдения SLO и подготовка отчётов по отклонениям;
- Анализ стоимости ошибок и принятие решений о допустимости рискованных изменений;
- Проектирование и настройка систем сбора метрик, логов и трейсов (Prometheus, Grafana, ELK/Loki и др.);
- Разработка процедур graceful degradation, failover и автоматического восстановления;
- Настройка алертинга по критическим событиям и деградациям производительности;
- Интеграция систем наблюдаемости с инцидент-менеджментом и эскалационными процедурами;
- Анализ рисков отказов и критических зависимостей в архитектуре GPU-стека;
- Участие в post-mortem анализе инцидентов и формирование списка мер по предотвращению повторений;
- Сбор и анализ данных о потреблении ресурсов в пилотах и промышленных инсталляциях;
- Подготовка рекомендаций по размерности кластеров и конфигурации для различных сценариев использования;
- Формирование требований к железу и сети для новых площадок;
- Определение критериев готовности релиза с точки зрения производительности и надёжности;
- Участие в пилотных проектах для сбора метрик реального использования;
- Подготовка отчетов по производительности и стабильности по итогам пилотов.
Для нас важно:
- Высшее образование (компьютерные науки, физика, инженерия или смежные области);
- Опыт в SRE, performance engineering или эксплуатации критичных систем не менее 4х лет;
- Практический навык с принципами SRE: SLI/SLO/SLA, error budget, incident management;
- Опыт работы с системами мониторинга и observability: Prometheus, Grafana, ELK/Loki, Jaeger/Tempo;
- Опыт в нагрузочном тестирование: методы, инструменты, интерпретация результатов;
- Понимание GPU-архитектуры и метрик производительности: utilization, memory bandwidth, PCIe throughput, thermal throttling;
- Опыт с Linux performance tuning, kernel parameters, сетевой оптимизацией;
- Наличие опыта с Capacity planning, прогнозированием ресурсов, анализом трендов;
- Желательно понимание требований по лицензированию ПО и работе с проприетарными драйверами;
- Готовность работать на территории РФ.