Проектирование архитектуры данных: Разработка и реализация эффективных архитектур для сбора, хранения и обработки больших объемов данных.
Развитие хранилищ данных: Поддержка и модернизация существующей инфраструктуры хранилищ данных, включая базы данных и озера данных.
Интеграция данных: Обеспечение интеграции различных источников данных, как внутренних, так и внешних.
Разработка ETL/ELT-процессов: Создание, оптимизация и сопровождение пайплайнов для извлечения, трансформации и загрузки данных.
Обеспечение качества данных: Внедрение механизмов контроля и обеспечения качества данных на всех этапах.
Мониторинг и оптимизация: Настройка мониторинга работоспособности и стабильности инфраструктурных решений, оптимизация производительности систем при высоких нагрузках.
CI/CD: Настройка и поддержка процессов непрерывной интеграции и непрерывной поставки (CI/CD) для решений по работе с данными.
Взаимодействие с командой: Тесное сотрудничество с аналитиками данных и data scientists для обеспечения эффективной работы с данными.
Требования:
Образование: Высшее техническое образование в сфере компьютерных наук, математики, машинного обучения или смежных областях.
Опыт работы: От 3 лет в сфере Data Engineering
Отличное знание основ теории баз данных, принципов нормализации и денормализации.
Навыки написания и оптимизации сложных SQL-запросов.
Опыт проектирования и поддержки схем данных.
Уверенное владение Python для разработки пайплайнов и автоматизации.
Опыт разработки и сопровождения пайплайнов данных с использованием инструментов оркестрации (Airflow).
Опыт работы с Git, MLflow, базами данных (ClickHouse, PostgreSQL), контейнеризацией (Docker).
Умение разбираться в API и протоколах обмена данными.
Знание основ машинного обучения и особенностей работы с данными для ML-проектов.
Понимание принципов безопасности и управления данными.
Навыки коммуникации для взаимодействия с бизнес-пользователями и техническими специалистами.
Приветствуется (плюсом будет):
Опыт работы с промышленными данными и MES-системами.
Опыт работы с Kubernetes.
Знание Hadoop экосистемы (Spark, Hive, HDFS).
Условия:
Удалённый формат работы
Официальное оформление по ТкРФ, белая ЗП (по договорённости);
График работы 5/2 с 8:30 до 17:30 по Москве;
Премии за эффективную работу и достижение результатов;
Различные программы обучения для прокачки профессиональных скиллов;