Обязанности: - Проектирование платформы
- Создание единой экосистемы сбора метрик
- Стандартизация: разработка общих правил мониторинга для всех команд разработки (единые шаблоны дашбордов, алертов и именования метрик).
- Выбор стека: оценка и внедрение инструментов, управление стоимостью инфраструктуры мониторинга.
Требования: 1. Hard Skills (Технический бэкграунд)
- Архитектурный опыт: Опыт проектирования отказоустойчивых систем мониторинга для высоконагруженных сред (High Availability, масштабирование хранилищ метрик).
- Глубокое знание стека: Metrics: Prometheus, VictoriaMetrics, Thanos, Mimir. Logs: ELK/EFK, Loki, ClickHouse. Traces: Jaeger, Tempo, OpenTelemetry (как единый стандарт).
- Инфраструктура: Уверенная работа с Kubernetes (Operator pattern, Helm), знание сетевого стека и Linux на уровне Performance Tuning.
- Автоматизация: Принципы IaC (Terraform, Ansible), навыки разработки на Go или Python (для написания кастомных экспортеров и автоматизации).
- Визуализация: Умение создавать не просто графики, а бизнес-ориентированные дашборды (Grafana) с четкой иерархией.
2. Management & Process (Управленческие навыки)
- Внедрение SRE-практик: Опыт работы с метриками надежности: SLI, SLO, SLA, а также внедрение Error Budgets.
- Incident Management: Опыт выстраивания процесса дежурств (On-call), автоматизации алертинга (умная группировка, подавление шума) и проведения Post-mortem.
- Vision & Strategy: Способность сформировать стратегию развития Observability на 1–2 года (переход от реактивного мониторинга к проактивному/предиктивному).
- Vendor Management: Опыт импортозамещения или выбора между Open Source и коробочными решениями (оценка TCO — стоимости владения).