Транслировать бизнес-цели в DS-задачи; определять метрики успеха и «ограничители» Строить признаки на основе DWH Alfa Oil (лояльность RedPay, POS, продажи топлива)
Документировать логику для повторного использования Проводить EDA и строгий статистический анализ; обучать и валидировать модели (приоритет объяснимым моделям (напр., SHAP/LIME) для принятия бизнес-подразделениями)
Совместно с Дата инженером обеспечивать бесшовную подачу результатов (сегменты, скоринги) в Power BI через витрины DWH, а также в приложения-клиенты компании (например, систему лояльности RedPay) Планировать и оценивать эксперименты (A/B, при необходимости CUPED/стратификация)
Считать uplift и ROI Вместе с Дата инженером обеспечить: пакетирование кода, регистрацию артефактов, расписание batch-скоринга (Airflow), дата контрактов, SLA, мониторинг дрейфа/качества и т.д.
Чётко доносить выводы и рекомендации для бизнес-подразделений; передавать playbook’и для BI/маркетинга
Требования:
Классические ML-алгоритмы (глубокое понимание): деревья/градиентный бустинг (XGBoost/Catboost и т.д.), линейная/логистическая регрессия, SVM, k-means/DBSCAN и т.д.; Понимание основных терминов и концепций DS/ML (метрики, регуляризация и т.д.)
Рекомендательные системы (обязательно): похожесть/implicit MF (ALS/BPR), ранжирование (GBDT, двухбашенные модели + re-rank); MAP@K/NDCG и бизнес-эффект (uplift)
Python-стек: scikit-learn, pandas/или polars, numpy и другие типовые библиотеки и фреймворки для анализа данных и классического (табулярного) ML.
Статистика: EDA, распределения и пропуски, проверка гипотез, мощности и интервалы, множественные сравнения; диагностика регрессий; основы временных рядов (сезонность/праздники)
A/B-тесты: дизайн, выбор главных/страхующих метрик, стратификация/CUPED, корректная интерпретаци.
Опыт A/B тестов в продакшене (не только теория)
Вывод в прод моделей: упаковка/версионирование моделей и данных, планирование батчевого скоринга (Airflow), сохранение в витрины/API, трекинг с MLflow (или аналогом)
Облака и инструменты: опыт ML на Azure/AWS/GCP (GCP — плюс); Git + Docker Дополнительным плюсом будет: Понимание и возможность применения инструментов DL: PyTorch/TensorFlow; основы по NLP/LLM, CV и табличным DNN (при необходимости) Feature store: Feast/Tecton или «feature-store-lite» на базе DWH + dbt Потоки: базовое понимание Kafka/Redpanda; умение адаптировать batch-признаки к near-real-time DWH/пайплайны: SQL по ClickHouse/Postgres, шаблоны dbt, базовая работа с Airflow Доменные знания: ритейл/топливо, опыт работы с клиентской сегментацией и аналитикой, промо-эластичность, аномалии/фрод Опыт топливного ритейла или схожих отраслей (FMCG, транспорт)