Кандинский — генеративная нейросеть Сбера для создания изображений и видео. Команда занимается разработкой, обучением и развитием модели, а также аналитикой и построением метрик её работы.
Обязанности
- проектирование, развертывание и дальнейшая эксплуатация кластеров Kubernetes в инфраструктуре cloud.ru, включая настройку сетевой модели, конфигурацию узлов и обеспечение отказоустойчивости
- установка, конфигурирование и сопровождение Apache Airflow в составе кластера: настройка окружения, обновления, мониторинг стабильности и производительности
- проектирование и реализация безопасного выхода сервисов в интернет: настройка firewall/NAT, управление маршрутизацией, внедрение best practices по сетевой безопасности
- развертывание и администрирование ClickHouse (включая настройку резервного копирования и стратегий восстановления данных), а также поддержка PostgreSQL
- поднятие и поддержка кластера PySpark для обработки данных: настройка ресурсов, интеграция с системами хранения, мониторинг и оптимизация производительности
- внедрение, настройка и эксплуатация self-hosted GitLab, включая CI/CD, runners и безопасный доступ
- настройка и поддержка системы мониторинга (Prometheus, Grafana или аналогичные решения): создание метрик, дашбордов, алертинга, анализ деградаций и предложение улучшений
- проведение диагностики инцидентов, восстановление работоспособности систем, улучшение надёжности инфраструктуры
- автоматизация процессов инфраструктуры: написание скриптов и утилит на Python и Bash, работа с Jenkins и CI/CD-конвейерами
- взаимодействие с командой разработки, помощь в формировании требований и внедрении новых сервисов.
Требования
- уверенный опыт развертывания и администрирования Kubernetes-кластеров (желательно в облачных платформах, таких как cloud.ru).
- глубокие знания принципов сетевой организации: маршрутизация, VPN, NAT, firewall, приватные сети, L3/L4 балансировка
- опыт проектирования безопасного сетевого периметра и организации защищённого выхода сервисов в интернет
- практический опыт установки и настройки Airflow в self-hosted среде
- опыт работы с ClickHouse (включая конфигурацию sharding/replication, резервное копирование) и PostgreSQL
- опыт установки и эксплуатации GitLab, конфигурация pipelines и CI/CD
- уверенное владение Python и Bash для задач автоматизации
- навыки работы с Jenkins (проектирование pipelines, интеграционные задачи)
- опыт работы с продуктами Apache: Kafka, Spark (а также Hive и Iceberg как плюс)
- готовность к командной работе, ответственность, умение ясно коммуницировать технические решения.
Условия
- крупнейшее DS&AI community — более 600 DS-специалистов банка
- дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
- возможность быть соавтором НИРов и статей для международных конференций
- возможность выбрать удобный формат работы: гибрид или офис
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.