Data Engineer

Описание вакансии

LIAN — системный интегратор с фокусом в аналитике и управлении данными.

Мы работаем в трех направлениях:

1. Автоматизация управленческой отчетности (BI) в малом и среднем бизнесе. Строим хранилища данных, настраиваем сбор и интеграцию, разрабатываем отчеты и дэшборды. Наш стек в BI включает все современные инструменты, в том числе open-source ПО.

2. Заказная разработка аналитических систем. Когда у нашего клиента есть специфичный запрос, мы разрабатываем аналитические системы с нуля. Часто применяем подходы BigData, Data Science, актуальные подходы к программному анализу данных и прогнозированию.

3. Запуск и ресурсное обеспечение команд разработки в комплексных проектах цифровой трансформации. Мы усиливаем команды наших партнеров и клиентов собственными сотрудниками и обеспечиваем максимально быстрый старт новых проектов. Среди наших заказчиков - крупные системные интеграторы, банки, нефтегазовые, химические производства, логистические компании, стартапы.

Мы приглашаем талантливого и опытного Data Engineer присоединиться к нашему проекту и вместе воплотить амбициозные задачи в жизнь!

Задачи:
- Миграция процессов отчетности и аналитики на новую платформу и настройка регламентных загрузок
- Работа с общебанковской data‑платформой: Data Lake, DWH, стриминговые компоненты
- Разработка end‑to‑end пайплайнов для сбора и обработки данных: выбор форматов, схем хранения и архитектуры интеграции
- Оптимизация производительности пайплайнов, Spark‑задач, запросов Trino и хранилищ данных
- Развитие архитектуры данных, внедрение новых технологий и сервисов согласно требованиям банка
- Управление обновлениями, конфигурациями, устранение уязвимостей и восстановление сервисов после сбоев
- Настройка интеграций Near‑Real‑Time между источниками данных и потребителями (стриминг + batch)
- Ведение и поддержка ETL/ELT процессов в Airflow и трансформаций в dbt
- Взаимодействие с командами разработки и бизнес‑аналитиками для уточнения требований и SLA

Требования:

- Владение SQL — умение писать и оптимизировать сложные запросы
- Понимание работы традиционных СУБД и MPP‑хранилищ (например, Greenplum)
- Опыт программирования на Python и/или Java/Scala для разработки ETL и трансформаций
- Опыт оркестрации пайплайнов через Apache Airflow
- Опыт работы с dbt для управления трансформациями и версионности данных
- Знание экосистемы Hadoop: HDFS, YARN, Hive, Sqoop
- Опыт работы с Apache Spark (DataFrames, Spark SQL)
- Опыт работы с Kafka и Trino (ранее Presto)
- Опыт контейнеризации и оркестрации: Docker, Kubernetes, Helm
- Понимание CI/CD практик и опыт работы с GitLab CI или аналогами
- Практический опыт в банковской предметной области (обязателен)
- Умение анализировать и оптимизировать производительность дата‑пайплайнов и дата‑сервисов
- Навыки инцидент‑менеджмента: восстановление сервисов, патчи, устранение уязвимостей
- Опыт работы с Greenplum и Postgres на уровне администрирования/оптимизации
- Опыт настройки Near‑Real‑Time интеграций и стриминговых решений
- Навыки автоматизации (Python, Bash, Ansible) и мониторинга (Prometheus, Zabbix и т.п.)
- Понимание принципов Data Lake и DWH архитектур, опыт выбора форматов хранения (Parquet/ORC)

Что мы предлагаем:
- Удобный формат трудоустройства на ваш выбор: ИП или через самозанятость.
- Удалённый формат работы.
- Возможности профессионального роста и участие в крупном проекте.
- Конкурентная заработная плата.
- Профессиональное развитие и участие в интересных проектах с реальным влиянием на бизнес.
- Дружная команда, регулярные митинги и прозрачный процесс приоритизации задач.

В нашей команде работают профессионалы с разносторонним опытом и стремлением к развитию. У нас ты сможешь решать интересные профессиональные задачи, сталкиваться с новыми вызовами и раскрывать свой потенциал.

Готов присоединиться к нам?
Откликайся — мы обязательно свяжемся с тобой!

Посмотреть контакты работодателя