Operation Engineer (Devops / SRE)

Описание вакансии

Продуктовая IT компания, которая занимается разработкой и поддержкой высоконагруженных проектов для крупных компаний, в том числе с мировой известностью, основная часть которых представляет собой развлекательные онлайн-сервисы находится в поисках Operation Engineer

О роли
Мы ищем Operations Engineer, который будет отвечать за развитие системы мониторинга и observability платформы, а также за подготовку и стандартизацию процедур реагирования на инциденты для команд поддержки L1 / L2.
Роль находится на стыке DevOps, SRE и Operations: фокус не на разработке фич, а на стабильности, прозрачности и управляемости продакшен-систем.

Основные обязанности:

Мониторинг и Observability

Проектирование и развитие системы мониторинга для сервисов на базе .NET / C# / React в Kubernetes.

Настройка и сопровождение метрик, логов и трейсов:

VictoriaMetrics / Prometheus
Grafana
ELK (Elasticsearch, Logstash/FluentBit, Kibana)

Разработка дашбордов, отражающих:

техническое состояние системы,
ключевые SLI/SLO,
признаки деградации сервиса и пользовательского опыта.
Настройка алертинга с приоритетами и трешхолдами, ориентированными на реальные инциденты, а не шум.

Инциденты и поддержка L1 / L2:

Разработка и поддержка runbook’ов / playbook’ов для команд поддержки L1 / L2.
Описание типовых сценариев инцидентов, шагов диагностики и эскалации.
Подготовка инструкций по использованию дашбордов и алертов для быстрого определения масштаба и причины проблемы.
Участие в разборе инцидентов (postmortem), формирование улучшений мониторинга и процессов.

Эксплуатация и стабильность:

Участие в обеспечении стабильной работы Kubernetes-кластеров и сервисов.
Анализ инцидентов, связанных с производительностью, доступностью и отказоустойчивостью.
Взаимодействие с командами разработки для внедрения observability best practices (метрики, логирование, health-checks).
Поддержка и улучшение процессов on-call (при необходимости).

Процессная и кросс-командная работа:

Тесное взаимодействие с командами разработки, DevOps и Support.
Консультационная роль для разработчиков по вопросам мониторинга и эксплуатации.
Участие в стандартизации подходов к observability и incident management.

Обязательные требования:

Опыт работы в роли Operations Engineer / DevOps Engineer / SRE от 3 лет.
Практический опыт работы с Kubernetes в production.
Опыт настройки мониторинга и алертинга на базе:
- Prometheus / VictoriaMetrics
- Grafana
- ELK stack
Понимание принципов observability: metrics, logs, traces.
Опыт написания и поддержки эксплуатационной документации (runbooks).
Понимание процессов инцидент-менеджмента и эскалаций.

Технический бэкграунд:

Понимание работы backend-приложений на .NET / C# (метрики, логирование, health endpoints).
Базовое понимание frontend-метрик (React, web vitals — будет плюсом).
Опыт работы с Linux, контейнерами, Helm.
Понимание сетевых основ (HTTP, TCP, DNS).

Будет плюсом:

Опыт внедрения OpenTelemetry.
Опыт построения SLI/SLO.
Опыт работы с high-load системами.
Опыт автоматизации (bash, terraform, ansible, helm).
Опыт участия в on-call ротациях.

Что компания может предложить вам:

Возможность развивать свои компетенции и применять знания на практике.
Возможность поработать на крупных проектах.
Компания заинтересована в развитии своих. сотрудников: готовы привлекать наставников и оплачивать курсы для повышения квалификации в целях бизнеса.
Отсутствие бюрократии, быстрое согласование необходимых вещей.
Оплачиваемые отпускные и больничные.
Премия по итогам года до 1-го оклада.
Компенсация спортзала.
Частичная компенсация английского языка или психолога (на выбор).
Компания поддерживает сотрудника в важные периоды жизни.
Предоставляем 4 day-off в год за счет компании.
ДМС после 6 месяцев работы.
Удаленный/офисный/гибридный формат работы.