Мы создаем дата-платформу нового поколения, которая станет фундаментом для всех бизнес-подразделений группы. Наша текущая дата-платформа, построенная на технологиях Hadoop, GreenPlum, Clickhouse и других, уже демонстрирует высокую отказоустойчивость и производительность. Теперь мы ищем лидера, который поможет нам выйти на новый уровень и создать платформу, способную эффективно справляться с быстрорастущей нагрузкой.
О команде:
Наша команда состоит из более чем 20 специалистов, включая инженеров DevOps, инженеров SRE, администраторов баз данных и архитекторов решений. Мы работаем над созданием дата-платформы, которая будет использовать современные архитектурные подходы, такие как Lakehouse, Data Mesh и Composable для вычислительных движков. Кроме того, мы активно развиваем PaaS-сервисы в нашем частном облаке X5 Salt и используем высокопроизводительную инфраструктуру в отдельном ЦОД.
Стек технологий:
- хранение данных: S3, PostgreSQL, GreenPlum, Clickhouse, Hadoop, Apache Iceberg, Kafka. Будет плюсом: MinIO, Redis, KeyDB, Mongo, Tarantool;
- оработка данных: Airflow, Trino, Spark, Apache NiFi. Будет плюсом: Flink, Debezium, Impala;
- оркестрация ресурсов: Kubernetes, Helm;
- управление инфраструктурой: Terraform, Ansible, Puppet;
- мониторинг и ведение журналов: Prometheus, Grafana, ELK, Victoria Metrics.
Кого мы ищем:
Мы ищем опытного и мотивированного руководителя, который сможет возглавить команду по развитию инфраструктуры.
Основные задачи:
- разработать и реализовать стратегию развития программно-аппаратной части дата-платформы;
- определить оптимальную конфигурацию оборудования, операционной системы и окружения;
- автоматизировать и унифицировать процессы развертывания, обновления и управления инфраструктурой;
- настроить информативный мониторинг дата-платформы на уровне использования ресурсов оборудования, процессов системного ПО и пользовательских запросов;
- разработка и внедрение процессов обслуживания и развития дата-платформы, включая решение инцидентов на третьей линии;
- проводить непрерывную оптимизацию конфигурации системных компонентов платформы на основе данных мониторинга и устраненных инцидентов;
- проводить исследования новых технологий (R&D), принимать и обосновывать решения об их использовании в контуре дата-платформы;
- дорабатывать ядро с открытым исходным кодом и собирать собственные дистрибутивы;
- управлять командой, ставить KPI, мотивировать, развивать и подбирать сотрудников;
- выстраивать эффективное взаимодействие с смежными командами: системной разработки, поддержки, архитектуры данных и базовой инфраструктуры.
Наши требования к кандидату:
- 3+ года опыта руководства командой sre, администраторов и DevOps-инженеров.
- опыт внедрения больших (петабайты) и высоконагруженных (1000+ DAU) федеративных дата-платформ, желательно «с нуля»;
- умение выстраивать работу на основе метрик;
- знание и опыт работы с S3, Kubernetes.