Сейчас мы ищем Junior Python Developer в ML-направление Ecom.tech.
Для эффективной работы сервисов мы активно используем модели машинного обучения, число которых измеряется десятками (ценообразование, прогноз спроса, рекомендации). Каждая из моделей вносит существенный вклад в развитие бизнеса, а их разработка ведётся сильной командой специалистов, где каждый участник влияет на продукт напрямую.
На данной позиции необходимо принимать участие в разработке ML-микросервисов в существующем стеке, а также прорабатывать архитектуру, интеграции с другими сервисами/
Задачи:
- Разработка и поддержка ETL/ELT-пайплайнов: участие в проектировании, реализации, тестировании и поддержке надежных и эффективных пайплайнов (на основе Python, SQL, Airflow и, возможно, Spark) для сбора, очистки, трансформации и загрузки данных из различных источников;
- Оборачивать решения от DataScience в полноценные сервисы, которые должны работать стабильно, эффективно и правильно на основе существующих фреймворков и подходов;
- Деплоить свои сервисы: собирать образы, вникать в инфраструктуру компании (совместно с наставником), поднимать сервисы в k8s, настраивать мониторинг. Если подобное уже реализовывал в своих проектах, то, пожалуйста, подсвети это нам;
- Автоматизировать рутинные задачи обработки данных;
- Интеграции и мониторинг данных: участие во внедрении данных в ML-пайплайны. Настройка базового мониторинга качества входящих и обработанных данных, алертинга о проблемах. Помощь в диагностике проблем данных/пайплайнов в продакшене.
Обязательные навыки:
- Уверенное владение python (джентельменский набор из pandas, numpy, etc), понимание принципов ООП, умение писать чистый поддерживаемый код;
- Знание базовых структур данных и алгоритмов;
- Sql - умение писать запросы низкой/средней сложности и понимание принципов оптимизации запросов;
- Понимание принципов работы airflow, приветствуется умение накинуть простенький dag;
- Git.
Будет плюсом:
- Опыт с hadoop/spark;
- Опыт написания тестов и работы с линтерами;
- Понимание принципов работы docker;
- Базовые знания k8s (понимание абстракций и как с ними работать).
Наш стек:
-
разработка: Python >= 3.10, FastAPI, PySpark, pytest, psycopg2, asyncpg, polars;
-
данные: S3, PostgreSQL, Greenplum, Clickhouse;
-
мониторинги и логи: VictoriaMetrics, VictoriaLogs, Grafana
-
задачи: Jira, Confluence;
-
инфраструктура: Airflow, Kafka, Kubernetes, GitLab.