Operations Engineer

Описание вакансии

Международная продуктовая IT компания, которая занимается разработкой и поддержкой высоконагруженных проектов для крупных компаний, основная часть которых представляет собой развлекательные онлайн-сервисы, в поисках Operations Engineer

В чем суть роли?
Вы займете ключевую позицию на стыке DevOps, SRE и Operations, где фокус — на стабильности, прозрачности и управляемости production-систем. Ваша основная миссия — развитие системы мониторинга и observability, а также построение эффективных процедур реагирования на инциденты.

Основные направления работы:

Мониторинг и Observability: Проектирование и развитие системы мониторинга для сервисов на базе .NET / C# / React в Kubernetes. Настройка метрик, логов, трейсов (VictoriaMetrics/Prometheus, Grafana, ELK). Разработка дашбордов и осмысленного алертинга.
Инциденты и поддержка L1/L2: Разработка и поддержка runbook’ов для команд поддержки. Описание сценариев инцидентов, шагов диагностики и эскалации. Участие в пост-мортемах и улучшении процессов.
Эксплуатация и стабильность: Участие в обеспечении стабильной работы Kubernetes-кластеров и сервисов. Анализ инцидентов, связанных с производительностью и доступностью. Взаимодействие с командами разработки для внедрения best practices.
Процессная работа: Тесное взаимодействие с командами разработки, DevOps и Support. Консультационная роль по вопросам мониторинга и эксплуатации. Стандартизация подходов к observability.

Что предстоит сделать?
Необходимо усилить support-команду техническим специалистом, который построит инструменты и протоколы реагирования на инциденты на основе количественных метрик (Grafana, Kibana, Sentry).

Мы ждем, что у вас есть:

Опыт работы в роли Operations Engineer / DevOps Engineer / SRE от 3 лет.
Практический опыт работы с Kubernetes в production.
Опыт настройки мониторинга и алертинга на базе Prometheus/VictoriaMetrics, Grafana, ELK stack.
Понимание принципов observability (metrics, logs, traces).
Опыт написания и поддержки эксплуатационной документации (runbooks).
Понимание процессов инцидент-менеджмента.
Технический бэкграунд: понимание .NET/C# приложений, Linux, контейнеров, сетевых основ.

Будет большим плюсом:

Опыт внедрения OpenTelemetry.
Опыт построения SLI/SLO.
Опыт работы с high-load системами.
Опыт автоматизации (bash, terraform, ansible, helm).
Опыт участия в on-call ротациях.

Что компания может предложить:

Офисный, гибридный или удаленный формат работы с возможностью гибкого начала рабочего дня;
Реализацию сложных и интересных задач в рамках крупных проектов;
Программу развития профессиональных компетенций: курсы для повышения квалификации, привлечение наставников;
Оперативное принятие решений и минимальное количество согласований;
Оплачиваемые отпуск и больничный лист;
4 day-off в год за счёт компании;
ДМС после 6 месяцев работы в компании;
Частичную компенсацию английского или сербского языка;
Компенсация спортзала;
Годовой бонус по результатам работы.