В рамках проекта по созданию «Помощника по инновациям с использованием элементов Искусственного интеллекта и инструментов ТРИЗ» ищем опытного специалиста в области DevOps, который будет отвечать за разработку, внедрение и поддержку инфраструктуры наших систем.
Наши требования:
• Опыт в компании, которая применяет state of the art ML технологии в production - от 3 лет;
• Знание Python, SQL, noSQL;
• Docker, k8s, в т.ч. разворачивание во внешних облачных сервисах;
• Jupyter Hub, PyTorch multi-GPU multi-node;
• Linux на уровне middle DevOps.
Будет плюсом:
• MLflow, ClearML;
• Label Studio, Толока;
• Airflow, Dagster, YARN;
• Hadoop, Spark Streaming, Faust, S3, MongoDB;
• FAISS, Milvus;
• Prometeus, Grafana;
• Архитектура высоко нагруженных распределённых систем, связанных с обработкой больших данных, балансировка нагрузки;
• Способы и инструменты для профилирования и оптимизации при обучении и inference моделей, включая LLM и CV;
• Профили нагрузки при разных видах обучения и inference, hardware и границы его применимости.
Ваша работа будет включать в себя:
• Обеспечение быстрого масштабирования и высокую доступность инфраструктуры ML;
• Обеспечение удобного и рационального выделения ресурсов, особенно GPU, для ноутбуков, скриптов, пайплайнов;
• Настраивание распределённого обучения и применения моделей, особенно больших нейросетей;
• Создание инструментов для быстрых экспериментов с ML и масштабирование тех, которые покажут пользу, на всех пользователей;
• Помощь DS'ам в подключении источников данных, установке и настройке библиотек, создание пайплайнов и сервисов;
• Помощь в проектировании и планировании ресурсов, инфраструктуры, архитектуры решений.
Мы предлагаем:
- Работу в крупной компании (оформление по ТК РФ);
- Конкурентную зарплату;
- Возможность работать в команде профессионалов;
- Возможность профессионального роста;
- Гибкий график работы, социальный пакет (по принципу кафетерия льгот);
- Дружественную атмосферу в коллективе.