Проект: Команда развивает единую MLOps - экосистему банка
Основной стек: Jupyterhub/Coder, Airflow, ArgoWF, MLflow, Seldon core/Kserve, Python, Ansible, Hadoop (spark, hdfs), Docker,Kubernetes, longhorn, minio, jenkins, Kafka, Redis, PostgreSQL, OpenSearch
Ваша зона ответственности
- Выстраивать и контролировать SRE процессы. Мониториг, алертинг, грамотное проведение регламентных работ, выстраивание целевого отношения к промышленной инфраструктуре уровня BC
- Управлять командой системного сопровождения (3 линия инфраструктуры - 3 человека) и функционального сопровождения (2я линия - 2 человека)
- Улучшать время реакции\решения задач на ФС и СС
- Проактивное решение потенциальных инфраструктурных проблем
- Самому погружаться в инфраструктуру, тем более в критичные задачи\инциденты
Необходимые навыки: - Опыт DevOps\SRE уровня BC/HA+ от 3х лет
- Опыт администрирования Kubernetes и смежных кластерных систем
- Опыт работы Hadoop, Spark, Kafka, ELK
- Опыт управления командой от 1 года
- Опыт выстраивания процесса сопровождения BC/HA+ систем
- Понимание ML/MLOps-стека будет преимуществом
- Самостоятельность в доведении задач до результата
- Проактивность и инициативность в предложениях по тех решениям
- Полное погружение в инфраструктуру и команду
- Командность, готовность помогать коллегам и пользователям
- Умение собрать общую картину ожидаемого результата, вместо решения конкретно поставленной задачи