Инженер по надежности сервисов

Москва, Северный административный округ, улица 8 Марта, 10с2

Метро: Аэропорт

Описание вакансии

Наша компания уже много лет работает над сложными проектами, в том числе крупными B2B, которые состоят из десятков сервисов, генерируют терабайты данных и обрабатывают тысячи событий в секунду. Мы сами создаем и поддерживаем проекты, поэтому для нас важно контролировать их работу в соответствии с нужным уровнем надежности. За это у нас отвечает отдельная команда - Инженеров по надежности сервисов.

Чем предстоит заниматься:

Плотно взаимодействовать с другими командами - поддержки, разработки, тестирования и системного администрирования;
Участвовать в жизни проектов на всех этапах: проектирование, разработка, внедрение, эксплуатация;
Настраивать и дорабатывать системы мониторинга;
Планировать и проводить испытания работающих систем на надежность и производительность;
Выполнять работы по настройке и деплою проектов в production-окружение, запускать проекты в кластере Kubernetes;
Изучать имеющиеся проекты и поддерживать документацию по ним, участвовать в разработке новой документации;
Изучать новые технологии, применять их на практике;
Реагировать на проблемы с сервисами, расследовать и участвовать в устранении инцидентов;
Проводить postmortem-анализ инцидентов, принимать меры против повторения инцидентов;
Работать с логами, анализировать данные.

Требуется:

Базовые навыки программирования, разработки скриптов и автоматизации;
Навыки чтения незнакомого кода, конфигурационных файлов;
Понимание принципов работы сетей и веб-сервисов;
Понимание принципов и опыт работы с Kubernetes;
Опыт работы с Helm, Helm-чартами, Helmfile;
Опыт поддержки и траблшутинга сервисов и приложений;
Базовые знания по информационной безопасности;
Опыт использования реляционных и нереляционных БД, умение составлять SQL-запросы сложнее, чем select+from;
Навыки работы с проектной документацией;
Хорошее знание Linux и основных утилит;
Стабильный канал в Интернет, возможность быть на связи в рабочее время и круглосуточно на время дежурства.

Будет плюсом:

Опыт работы с Gitlab CI/CD;
Опыт развертывания и настройки отказоустойчивых и распределенных систем;
Опыт работы с terraform, ansible;
Опыт работы с Grafana в настройке графиков и алертов, опыт работы с InfluxDB и Prometheus;
Знание чего-либо из нашего стека технологий;
Опыт в программировании и совместной разработке, понимание, что такое качественный код.

Наш стек: