Чем предстоит заниматься:
- Владелец процесса поставки, формирования, обновления и поддержки признаков (data features) и их качества;
- Руководство отделом анализа и подготовки данных, постановка и контроль исполнения КПЭ сотрудников;
- Стандартизация подходов к построению и поддержке пайплайнов сборки фичей для построения витрин данных, расчет и фиксация метрик качества;
- Обеспечение ведения необходимой технической документации об используемых источниках данных;
- Отвечать за соответствие процессов, связанных с признаками (data features), актуальным политикам банка в части управления данными (data governance);
- Проведение RnD в рамках оптимизации процессов сбора и обработки признаков данных (data features);
- Участие в разработке и внедрении ML инструментов и сервисов: Feature Store и мониторинги для ML моделей;
- Кросс-функциональное взаимодействие с командами ML-разработки, командой развития и поддержки платформы обработки данных;
- Представлять интересы Управления исследования данных и машинного обучения во взаимодействии с внутренними банковскими структурами по вопросам доступов к данным, необходимым для построения моделей машинного обучения.
Что мы ждём:
- Опыт разработки, внедрения, автоматизации ML решений (3 года);
- Глубокое понимание метрик качества данных и ML-моделей (concept-drift, data-drift);
- Уверенное знание математической статистики;
- Теория вероятностей и дизайн экспериментов (A/B-тестирования, квази-эксперименты, АА-тесты);
- Знание методологии и принципов разработки ML-моделей, а также стека применяемых технологий и подходов к сбору, обработке, хранению и управлению данными;
- Перевод бизнес-гипотез в признаки, оценка экономического эффекта, приоритизация roadmap’а.
Навыки и опыт работы с ПО:
- Стек: Python (pandas, NumPy, scikit-learn, PySpark), SQL, Bash;
- Bigdata: Apache Spark, Hadoop-экосистема;
- Оркестраторы: Airflow / Kubeflow Pipelines / Prefect / Dagster / Kedro;
- Feature Store: Feast, проприетарные решения; консистентность offline - online;
- Качество данных: Great Expectations, Evidently AI; data-lineage, data governance;
- MLOps: Git, CI/CD (Teamcity / Jenkins), Docker, MLflow, DVC;
- Stream processing: Kafka + Flink / Spark Structured Streaming для near-real-time фичей;
- Работа в IDE: JupyterLab, VSCode.