Data Engineer (Python/SQL/Spark/ETL)

Описание вакансии

О компании:

Амаркон — российская компания с 15-летним опытом работы на рынке информационных технологий.

Мы специализируемся на разработке и внедрении российских программных продуктов и решений. Наш успешный опыт включает автоматизацию в ритейле, телекоме и производственных компаниях. Амаркон разрабатывает и внедряет собственные решения класса ECM, PIM, DAM, системы бизнес-аналитики BI, портальные решения, а также сервисы для электронной коммерции.

Мы также осуществляем заказную разработку, внедряем, настраиваем и модифицируем партнерские IT-продукты.

Наша команда опытных IT-специалистов предоставляет консалтинговые услуги, осуществляет сопровождение и поддержку IT-проектов.

Среди наших клиентов такие известные компании, как X5 Group, Tele2, Русатом Сервис, НЛМК, Metro CC, Лента и другие.

Чем предстоит заниматься (Задачи):

Собирать и интегрировать данные из разных источников (API, логи, БД, CRM и т.п.) в data‑lake, хранилище или прод‑модели.
Проектировать и развёртывать ETL/ELT‑пайплайны, настраивать их автоматизацию, мониторинг и обработку ошибок.
Оптимизировать производительность запросов, хранилищ и пайплайнов (партиционирование, индексы, кластеризация, ресайз процессов).
Обеспечивать качество, стабильность и безопасность данных (валидация, контроль дублей, права доступа, маскировка PII).
Играться с архитектурой данных (data warehouse vs data lakehouse, потоковая vs партия, схемы iPaaS, CDC и т.п.) под текущие задачи и нагрузку.

Наши ожидания (Ключевые требования):

Язык: Python (чистый код, модули, библиотеки типа pandas, requests и т.п.) плюс понимание ООП и архитектурных паттернов.
SQL: продвинутый уровень — CTE, оконные функции, сложные JOIN‑ы, понимание execution plan, индексов, партиционирования.
Базы и хранилища: PostgreSQL/MySQL/ClickHouse/Redshift/BigQuery/SparkSQL и т.п., понимание, где и как хранить данные.
Пайплайны и оркестрация: Airflow / Prefect / Dagster или аналоги; умение писать и поддерживать DAG‑и, обработку ошибок, логирование.
Облака: AWS или GCP либо Azure (S3/Bucket, EMR/Dataproc, Fargate/Lambda, IAM, VPC, бюджеты).
Big‑data минимум: Spark (PySpark или Scala) и/или Flink/Kafka при работе с потоковыми/большими данными; разбор партиционирования, сериализации, форматов (Parquet/ORC/Avro).

Мы предлагаем: