Cloud․ru — провайдер облачных сервисов и ИИ-технологий. Мы делаем доступ к облакам и искусственному интеллекту простым и удобным.
В Cloud․ru есть больше 130 IaaS- и PaaS-сервисов, облачная платформа Cloud․ru Evolution на базе собственных разработок, а также цифровая среда Evolution AI Factory для работы с генеративным ИИ.
В связи с расширением , команда эксплуатации платформенных сервисов(PaaS) ищет опытного инженера со специализацией в облачных PaaS, который сможет эффективно и быстро решать инциденты и проблемы, а также работать над повышением надежности платформы.
Пул продуктов в зоне ответственности направления включает более 7 продуктовых групп:
- Контейнеры: Managed Kubernetes, Container Apps, Artifact Registry, Container Security
- Разработка: API gateway
- Брокеры сообщений: Managed Kafka, Managed Corax
- Базы данных: Managed OpenSearch, Managed PostgreSQL, Managed Pangolin, Managed DataGrid, Managed Redis, Managed ClickHouse
- Инструменты разработчика: Workflow Studio, Repo
- Платформа данных: Managed Airflow, Managed Trino, Managed Metastore, Managed ArenadataDB, Managed Spark, Managed BI
- AI Factory: ML Inference, Foundation Models, Notebooks, ML Finetuning, Managed RAG, AI-агенты
Задачи:
- Принимать участие в разворачивании и эксплуатации сервисов PaaS в prod и stage-окружениях;
- Реагировать на инциденты и проблемы (переданные с L2) и оповещения мониторинга;
- Проводить диагностику, выявлять причины сбоев и восстанавливать работу сервисов;
- Участвовать в разборе инцидентов и поиске их причин, участвовать в написании postmortem, контролировать выполнение мер по предотвращению повторений инцидентов;
- Создавать и поддерживать в актуальном состоянии документацию и инструкции для инженеров поддержки L2 и L3;
- Вместе с SRE работать над повышением надёжности системы (мониторинг, алертинг, поиск/указание слабых мест и т.п.).
Требования:
- Уверенные знания и опыт администрирования Linux;
- Уверенные знания о контейнеризации и Kubernetes;
- Опыт сопровождения критических информационных систем и инфраструктуры;
- Опыт работы с инструментами автоматизации и управления конфигурациями (Ansible/Terraform/Puppet или другими).
- Способность принимать взвешенные решения в критической ситуации и умение планомерно работать над поиском причины неисправности и её устранением;
- Базовые знания в области сетевых технологий;
- Опыт работы с системами контроля версий (Git) и CI/CD (Gitlab, Jenkins);
- Умение работать с инструментами мониторинга и логирования.