Наша команда ищет опытного SRE инженера для развития и обеспечения надежности нашей микросервисной инфраструктуры. Если вы эксперт в Kubernetes, мониторинге и автоматизации и хотите внедрять лучшие практики SRE – вы нам подходите!
Чем предстоит заниматься:
- Разработка и реализация стратегии мониторинга, а также настройка алертов на основе SLO и error budgets;
- Организация процесса проведения постмортемов инцидентов и внедрения корректирующих мер командами;
- Оценка доступности сервисов и анализ деградаций с привязкой к бизнес-метрикам;
- Разработка и реализация мероприятий, направленных на повышение надежности и доступности сервисов компании в рамках инфраструктуры на базе облачных решений Yandex Cloud, включая архитектуру;
- Сопровождение систем мониторинга Victoria Metrics, визуализации в Grafana и логирования в GrayLog;
- Автоматизация рутинных операций связанных с мониторингом;
- Внедрение практик SRE в команду мониторинга;
- Участие в управлении error budget.
Мы ждем, что у вас есть:
- Разработка и поддержка SLI/SLO/SLA;
- Работы с Linux системами на уровне эксперта (CentOS, Debian, Ubuntu, AlmaLinux);
- Работы с сервисами публичных облачных платформ, например Yandex Cloud, AWS или других;
- Работы с инструментами IaC, а также CI/CD (преимущественно terraform, helm, gitlab CI/CD);
- Работы с высоконагруженными кластерами Kubernetes (желательно иметь опыт работы с managed и unmanaged, а также траблшутинга проблем);
- Работы с системами мониторинга Victoria Metrics, Prometheus, Grafana, Zabbix;
- Написания скриптов (bash, python или golang например);
- Расследований инцидентов на основании логов и метрик, а также восстановление картины произошедшего;
- Работы с сетями на уровне не меньшем, чем CCNA;
- Работы в команде.
Будет плюсом:
- Умеешь работать с RabbitMQ и Kafka;
- Знаешь принципы Chaos Engineering;
- Знаешь security best practices (IAM, сетевые политики, шифрование);
- Работал с разными СУБД, знаешь особенности Mongo, оптимизировал (может и не на уровне DBA) PostgreSQL, настраивал кластера Redis;
- Опыт донесения технических SRE-метрик до бизнеса.
От нас:
-
Официальное трудоустройство (ТК РФ), социальные гарантии, оплачиваемые переработки (достаточно редкие, надо отметить);
-
Удаленный формат работы;
-
Команда экспертов, которая поможет\\подскажет\\научит и подставит плечо, когда потребуется;
-
Возможность решать интересные задачи, качать скиллы и развивать инфру на базе современных технологий.