Operation Engineer

STARTRIBE LTD

Operation Engineer

Тбилиси

Описание вакансии

Компания, занимающаяся разработкой и поддержкой высоконагруженных проектов для крупных компаний, в том числе с мировой известностью, основная часть которых представляет собой B2B решения развлекательной, игровой и спортивной тематики, находится в поиске Operation Engineer

Основные обязанности:
Мониторинг и Observability

  • Проектирование и развитие системы мониторинга для сервисов на базе .NET / C# / React в Kubernetes.

  • Настройка и сопровождение метрик, логов и трейсов:

    • VictoriaMetrics / Prometheus

    • Grafana

    • ELK (Elasticsearch, Logstash/FluentBit, Kibana)

  • Разработка дашбордов, отражающих:

    • техническое состояние системы,

    • ключевые SLI/SLO,

    • признаки деградации сервиса и пользовательского опыта.

  • Настройка алертинга с приоритетами и трешхолдами, ориентированными на реальные инциденты, а не шум.

Инциденты и поддержка L1 / L2

  • Разработка и поддержка runbook’ов / playbook’ов для команд поддержки L1 / L2.

  • Описание типовых сценариев инцидентов, шагов диагностики и эскалации.

  • Подготовка инструкций по использованию дашбордов и алертов для быстрого определения масштаба и причины проблемы.

  • Участие в разборе инцидентов (postmortem), формирование улучшений мониторинга и процессов.

Эксплуатация и стабильность

  • Участие в обеспечении стабильной работы Kubernetes-кластеров и сервисов.

  • Анализ инцидентов, связанных с производительностью, доступностью и отказоустойчивостью.

  • Взаимодействие с командами разработки для внедрения observability best practices (метрики, логирование, health-checks).

  • Поддержка и улучшение процессов on-call (при необходимости).

    Обязательные требования:

  • Опыт работы в роли Operations Engineer / DevOps Engineer / SRE от 3 лет.

  • Практический опыт работы с Kubernetes в production.

  • Опыт настройки мониторинга и алертинга на базе:

    • Prometheus / VictoriaMetrics

    • Grafana

    • ELK stack

  • Понимание принципов observability: metrics, logs, traces.

  • Технический бэкграунд

  • Понимание работы backend-приложений на .NET / C# (метрики, логирование, health endpoints).

  • Базовое понимание frontend-метрик (React, web vitals — будет плюсом).

  • Опыт работы с Linux, контейнерами, Helm.

  • Понимание сетевых основ (HTTP, TCP, DNS).

  • Будет плюсом:

  • Опыт внедрения OpenTelemetry.

  • Опыт построения SLI/SLO.

  • Опыт работы с high-load системами.

  • Опыт автоматизации (bash, terraform, ansible, helm).

  • Опыт участия в on-call ротациях

  • Опыт написания и поддержки эксплуатационной документации (runbooks).

  • Понимание процессов инцидент-менеджмента и эскалаций.

  • Что мы предлагаем взамен:

  • Удобный тип и вид оформления

  • Годовой бонус по результатам работы

  • Возможность работать из любой точки мира

  • Возможность переезда в любой офис компании

  • Лояльность и возможность вырасти еще выше

Навыки
  • Grafana
  • Prometheus
  • C#
  • Linux
  • Kubernetes
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию