Про позицию:
Сейчас мы в поиске Machine learning engineer/python backend developer, который в составе ML команды будет участвовать в передовом для компании направлении по развитию Поиска маркетплейса и усилит всю практику MLE в компании. Сотрудник будет вовлечён в продуктивизацию классических NLP решений, решений реранжирования, векторного поиска и иных сервисов, часто используемых в системах поиска.
Задачи:
- Участие в проектировании решений (system design'ах), помощью в выявлении системных и структурных ограничений.
- Оборачивание решения от DataScience в полноценные сервисы, которые должны работать стабильно, эффективно и правильно на основе существующих фреймворков и подходов.
- Интеграция с внешними инструментами и сервисами, подключение баз данных, рефакторинг качества кода.
- Формирование и развитие шаблонов продуктивизации, существующих фреймворков и подходов.
- Деплой своих сервисов: сборка образов, понимание инфраструктуры компании, сервисы в k8s.
- Автоматизация рутинных задач обработки данных.
- Интеграция и мониторинг данных: участие во внедрении данных в ML-пайплайны. Настройка базового мониторинга качества входящих и обработанных данных, алертинга о проблемах. Помощь в диагностике проблем данных/пайплайнов в продакшене.
- Аккумулирование технической экспертизы на несколько продуктов, разработка общих решений.
Обязательные навыки:
- Экспертный python, FastAPI.
- Экспертное владение тестированием - мы используем pytest.
- Экспертное знание баз данных - ACID, индексы, транзакции, deadlock, планировщик, No SQL.
- Экспертное владение инфраструктурными инструментами - Git, Docker, Docker Compose, Kafka, K8S, Helm Charts, Argo CD, Ci/Cd, Prometheus, Grafana, S3, Airflow.
- Понимание и умение использовать паттерны разработки.
- Владение архитектурными принципами в разработке ПО.
- Понимание цикла разработки типовой МЛ модели (какие инструменты и для чего используются).
Желательные навыки:
- Знание векторных баз данных - FAISS, Qdrant, pgvector.
- Airflow, Spark.
- Triton Inference Server.
- ElasticSearch/OpenSearch + LTR plugin.
Стек команды:
- разработка: Python 3.12, FastAPI, PySpark, pytest, docker;
- данные: PostgreSQL, Greenplum, Clickhouse, HDFS, faiss;
- мониторинги и логи: VictoriaMetrics, VictoriaLogs, Grafana;
- задачи: Jira, Confluence;
- инфраструктура: Airflow, Kafka, Kubernetes, GitLab, Argo CD