Инженер L3 PaaS

Москва, 2-я Звенигородская улица, 28

Описание вакансии

Cloud․ru — провайдер облачных сервисов и ИИ-технологий. Мы делаем доступ к облакам и искусственному интеллекту простым и удобным.

В Cloud․ru есть больше 130 IaaS- и PaaS-сервисов, облачная платформа Cloud․ru Evolution на базе собственных разработок, а также цифровая среда Evolution AI Factory для работы с генеративным ИИ.

В связи с расширением , команда эксплуатации платформенных сервисов(PaaS) ищет опытного инженера со специализацией в облачных PaaS, который сможет эффективно и быстро решать инциденты и проблемы, а также работать над повышением надежности платформы.

Пул продуктов в зоне ответственности направления включает более 7 продуктовых групп:

Контейнеры: Managed Kubernetes, Container Apps, Artifact Registry, Container Security
Разработка: API gateway
Брокеры сообщений: Managed Kafka, Managed Corax
Базы данных: Managed OpenSearch, Managed PostgreSQL, Managed Pangolin, Managed DataGrid, Managed Redis, Managed ClickHouse
Инструменты разработчика: Workflow Studio, Repo
Платформа данных: Managed Airflow, Managed Trino, Managed Metastore, Managed ArenadataDB, Managed Spark, Managed BI
AI Factory: ML Inference, Foundation Models, Notebooks, ML Finetuning, Managed RAG, AI-агенты

Задачи:

Принимать участие в разворачивании и эксплуатации сервисов PaaS в prod и stage-окружениях;
Реагировать на инциденты и проблемы (переданные с L2) и оповещения мониторинга;
Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервисов;
Участвовать в разборе инцидентов и поиске их причин, участвовать в написании postmortem, контролировать выполнение мер по предотвращению повторений инцидентов;
Создавать и поддерживать в актуальном состоянии документацию и инструкции для инженеров поддержки L2 и L3;
Вместе с SRE работать над повышением надёжности системы (мониторинг, алертинг, поиск/указание слабых мест и т.п.).

Требования:

Уверенные знания и опыт администрирования Linux;
Уверенные знания о контейнеризации и Kubernetes;
Опыт сопровождения критических информационных систем и инфраструктуры;
Опыт работы с инструментами автоматизации и управления конфигурациями (Ansible/Terraform/Puppet или другими).
Способность принимать взвешенные решения в критической ситуации и умение планомерно работать над поиском причины неисправности и её устранением;
Базовые знания в области сетевых технологий;
Опыт работы с системами контроля версий (Git) и CI/CD (Gitlab, Jenkins);
Умение работать с инструментами мониторинга и логирования.