Data Engineer

Описание вакансии

LIAN — системный интегратор с фокусом в аналитике и управлении данными.

Мы работаем в трех направлениях:

1. Автоматизация управленческой отчетности (BI) в малом и среднем бизнесе. Строим хранилища данных, настраиваем сбор и интеграцию, разрабатываем отчеты и дэшборды. Наш стек в BI включает все современные инструменты, в том числе open-source ПО.

2. Заказная разработка аналитических систем. Когда у нашего клиента есть специфичный запрос, мы разрабатываем аналитические системы с нуля. Часто применяем подходы BigData, Data Science, актуальные подходы к программному анализу данных и прогнозированию.

3. Запуск и ресурсное обеспечение команд разработки в комплексных проектах цифровой трансформации. Мы усиливаем команды наших партнеров и клиентов собственными сотрудниками и обеспечиваем максимально быстрый старт новых проектов. Среди наших заказчиков - крупные системные интеграторы, банки, нефтегазовые, химические производства, логистические компании, стартапы.

Сейчас мы приглашаем опытного Data Engineer'а в сотрудничество на наши проекты!

Чем предстоит заниматься:

Разработка и внедрение ETL/ELT-процессов на основе прототипов и технических требований;
Адаптация и модернизация существующих ETL-процессов в соответствии с меняющимися бизнес-потребностями;
Оптимизация и рефакторинг кода (SQL/Python), конфигураций Spark и работы с HDFS для повышения эффективности;
Продуктивизация, постановка на регламентное выполнение и мониторинг ETL-процессов, включая внедрение DQ-проверок;
Активное взаимодействие с командами Системных аналитиков, Инженеров данных, поддержки (L2/L3), DevOps и другими смежными подразделениями;
Работа с Централизованным OLAP-хранилищем на базе Hadoop и поддержка слоя репликации витрин (например, в Greenplum). Взаимодействие с различными СУБД, включая PostgreSQL, Teradata, Clickhouse и другие.
Оперативное решение инцидентов и проблем в рамках третьей линии поддержки;

Наши пожелания к кандидатам:

Уверенное владение StarRocks и глубокие знания его архитектуры;
Глубокое понимание HDFS и принципов распределённого хранения данных;
Опыт работы с форматом данных Apache Iceberg в production-среде;
Экспертные знания SQL и практический опыт оптимизации сложных запросов;
Уверенное владение Python для проектирования и разработки ETL/ELT-процессов;
Практический опыт работы с экосистемой Hadoop (HDFS, YARN, Hive, Spark);
Опыт работы с Apache Hive, включая настройку и оптимизацию;
Навыки разработки и поддержки высоконагруженных пайплайнов на Apache Spark;
Опыт настройки, оркестрации и мониторинга процессов в Apache Airflow;
Свободное владение Linux CLI и базовыми инструментами админиторирования;
Опыт работы с Greenplum или аналогичными MPP-системами (знание внутренней механики);
Умение описывать и поддерживать конфигурации в YAML-нотации.

Что мы предлагаем:

Форма трудоустройства на ваш выбор: договору оказания услуг с ИП или самозанятым
Участие в интересных масштабных проектах с Заказчиками федерального и международного уровня
Работа с передовыми технологиями
Возможности профессионального и карьерного роста
Полностью удаленная работа
Регулярная и достойная оплата труда

В нашей команде работают профессионалы с разносторонним опытом. Здесь ты найдешь профессиональные задачи и новые вызовы, сможешь реализовать свой потенциал.
Хочешь стать частью нашей команды? Мы ждем твоего отклика и свяжемся с тобой !

Посмотреть контакты работодателя