Ереван
Мы ищем Operations Engineer, который поможет развивать систему мониторинга и observability-платформу, а также подготовит и стандартизирует процессы реагирования на инциденты для команд поддержки L1 / L2.
Эта роль находится на пересечении DevOps, SRE и Operations: здесь основной фокус не на разработке новых фич, а на стабильности, прозрачности и управляемости продакшн-систем.
Задачи:
Мониторинг и Observability
Проектировать и развивать систему мониторинга для сервисов на .NET / C# / React в Kubernetes.
Настраивать и сопровождать метрики, логи и трассировки (VictoriaMetrics / Prometheus, Grafana, ELK).
Создавать дашборды, которые показывают: текущее состояние системы, ключевые SLI/SLO, признаки деградации сервиса и пользовательского опыта.
Настраивать алертинг с приоритетами и трешхолдами, ориентируясь на реальные инциденты, а не на лишний шум.
Инциденты и поддержка L1 / L2
Разрабатывать и поддерживать runbook / playbook для команд поддержки.
Описывать типовые сценарии инцидентов, шаги диагностики и эскалации.
Подготавливать инструкции по использованию дашбордов и алертов для быстрого понимания масштаба и причины проблемы.
Участвовать в разборе инцидентов (postmortem) и вносить предложения по улучшению мониторинга и процессов.
Эксплуатация и стабильность
Поддерживать стабильную работу Kubernetes-кластеров и сервисов.
Анализировать инциденты, связанные с производительностью, доступностью и отказоустойчивостью.
Сотрудничать с командами разработки для внедрения observability best practices (метрики, логирование, health-checks).
При необходимости поддерживать и улучшать процессы on-call.
Процессная и кросс-командная работа
Тесно взаимодействовать с командами разработки, DevOps и поддержки.
Консультировать разработчиков по вопросам мониторинга и эксплуатации.
Участвовать в стандартизации подходов к observability и incident management.
Требования:
Опыт работы Operations Engineer / DevOps / SRE от 3 лет.
Практический опыт работы с Kubernetes в продакшне.
Настройка мониторинга и алертинга (Prometheus / VictoriaMetrics, Grafana, ELK).
Понимание принципов observability: метрики, логи, трассировки.
Опыт написания и поддержки эксплуатационной документации (runbooks).
Понимание процессов инцидент-менеджмента и эскалаций.
Технический бэкграунд: работа с backend на .NET / C#, базовое понимание frontend-метрик (React, web vitals — плюс).
Опыт работы с Linux, контейнерами, Helm.
Понимание сетевых основ (HTTP, TCP, DNS).
*Будет плюсом:
Опыт внедрения OpenTelemetry.
Опыт построения SLI/SLO.
Работа с high-load системами.
Автоматизация процессов (bash, terraform, ansible, helm).
Опыт участия в on-call ротациях.