Международная продуктовая IT компания, которая занимается разработкой и поддержкой высоконагруженных проектов для крупных компаний, основная часть которых представляет собой развлекательные онлайн-сервисы, в поисках Operations Engineer
В чем суть роли?
Вы займете ключевую позицию на стыке DevOps, SRE и Operations, где фокус — на стабильности, прозрачности и управляемости production-систем. Ваша основная миссия — развитие системы мониторинга и observability, а также построение эффективных процедур реагирования на инциденты.
Основные направления работы:
- Мониторинг и Observability: Проектирование и развитие системы мониторинга для сервисов на базе .NET / C# / React в Kubernetes. Настройка метрик, логов, трейсов (VictoriaMetrics/Prometheus, Grafana, ELK). Разработка дашбордов и осмысленного алертинга.
- Инциденты и поддержка L1/L2: Разработка и поддержка runbook’ов для команд поддержки. Описание сценариев инцидентов, шагов диагностики и эскалации. Участие в пост-мортемах и улучшении процессов.
- Эксплуатация и стабильность: Участие в обеспечении стабильной работы Kubernetes-кластеров и сервисов. Анализ инцидентов, связанных с производительностью и доступностью. Взаимодействие с командами разработки для внедрения best practices.
- Процессная работа: Тесное взаимодействие с командами разработки, DevOps и Support. Консультационная роль по вопросам мониторинга и эксплуатации. Стандартизация подходов к observability.
Что предстоит сделать?
Необходимо усилить support-команду техническим специалистом, который построит инструменты и протоколы реагирования на инциденты на основе количественных метрик (Grafana, Kibana, Sentry).
Мы ждем, что у вас есть:
- Опыт работы в роли Operations Engineer / DevOps Engineer / SRE от 3 лет.
- Практический опыт работы с Kubernetes в production.
- Опыт настройки мониторинга и алертинга на базе Prometheus/VictoriaMetrics, Grafana, ELK stack.
- Понимание принципов observability (metrics, logs, traces).
- Опыт написания и поддержки эксплуатационной документации (runbooks).
- Понимание процессов инцидент-менеджмента.
- Технический бэкграунд: понимание .NET/C# приложений, Linux, контейнеров, сетевых основ.
Будет большим плюсом:
- Опыт внедрения OpenTelemetry.
- Опыт построения SLI/SLO.
- Опыт работы с high-load системами.
- Опыт автоматизации (bash, terraform, ansible, helm).
- Опыт участия в on-call ротациях.
Что компания может предложить:
- Офисный, гибридный или удаленный формат работы с возможностью гибкого начала рабочего дня;
- Реализацию сложных и интересных задач в рамках крупных проектов;
- Программу развития профессиональных компетенций: курсы для повышения квалификации, привлечение наставников;
- Оперативное принятие решений и минимальное количество согласований;
- Оплачиваемые отпуск и больничный лист;
- 4 day-off в год за счёт компании;
- ДМС после 6 месяцев работы в компании;
- Частичную компенсацию английского или сербского языка;
- Компенсация спортзала;
- Годовой бонус по результатам работы.