О проекте:
Сейчас мы находимся в поисках Data Engineer в команду, которая занимается полным циклом внедрения математических моделей (ML моделей).
Наш стэк:
Мы все работаем на современной ML-платформе.
Используем PySpark, SQL, Python, Airflow для оркестрации DAGов, MLFlow для регистрации моделей и Feature Store для хранения фичей.
Наша команда:
7 человек: DE, DS, DA и MLE
Чем предстоит заниматься:
- Формирование датасетов, поиск и подгрузка данных;
- Автоматизация Data Pipelines;
- Разработка ETL-процессов для интеграции данных из различных внутренних и внешних источников;
- Оптимизация сборки датасетов и работа с багами;
- Подготовка данных для внедрения математических моделей в конвейер принятия решений.
Что мы ждем:
- Опыт в направлении от 3 лет;
- Опыт с Apache Airflow: настройка, оптимизация, DAG на Python;
- Знание SQL на уровне сложных запросов и оптимизации;
- Знание Python на Middle уровне;
- Высшее образование.
Будет плюсом:
- Опыт работы с Hadoop;
- Опыт работы с Pyspark, Scala;
- Знание потоковых данных (Kafka, Spark Streaming);
- Опыт работ с Docker, Kubernetes.