О роли
Cледить за стабильностью сервисов, оперативно разбирать инциденты и помогать командам в рабочих чатах
Чем предстоит заниматься
- Мониторить состояние балансировщиков и реагировать на деградации/отказы.
- Обрабатывать инциденты в production: первичная диагностика, локализация, эскалация, сопровождение до восстановления.
- Работать с Kubernetes на базовом уровне: понимать принципы, проверять статусы, выполнять типовые действия для pods/deployments/services.
- Отвечать на сообщения в чатах, собирать контекст, координировать действия с командами разработки и тестирования.
- Обслуживать и обновлять серверы: плановые обновления, патчи, поддержание актуального состояния окружений.
Что важно
- Опыт системного администрирования (Linux).
- Понимание сетевых основ и типовых проблем в проде (DNS, TCP/IP, HTTP/HTTPS).
- Базовое понимание работы L4/L7 балансировщиков.
- Базовые знания Kubernetes и практический опыт взаимодействия.
- Умение работать по инцидентам с фиксацией статуса и результатов.
Будет плюсом
- Опыт мониторинга и логирования (Prometheus/Grafana/ELK или аналоги).
- Опыт с HAProxy/Nginx и сетевой диагностикой.
- Навыки автоматизации (bash, Ansible и т.п.).
- Опыт участия в postmortem/разборах инцидентов и улучшении надежности.
Формат и условия
- Production-поддержка, плановые работы, коммуникация в чатах.
- График/дежурства/формат работы — обсуждаем.
Москва
Не указана