Data Engineer

Описание вакансии

LIAN — системный интегратор с фокусом в аналитике и управлении данными.

Мы работаем в трех направлениях:

1. Автоматизация управленческой отчетности (BI) в малом и среднем бизнесе. Строим хранилища данных, настраиваем сбор и интеграцию, разрабатываем отчеты и дэшборды. Наш стек в BI включает все современные инструменты, в том числе open-source ПО.

2. Заказная разработка аналитических систем. Когда у нашего клиента есть специфичный запрос, мы разрабатываем аналитические системы с нуля. Часто применяем подходы BigData, Data Science, актуальные подходы к программному анализу данных и прогнозированию.

3. Запуск и ресурсное обеспечение команд разработки в комплексных проектах цифровой трансформации. Мы усиливаем команды наших партнеров и клиентов собственными сотрудниками и обеспечиваем максимально быстрый старт новых проектов. Среди наших заказчиков -крупные системные интеграторы, банки, нефтегазовые, химические производства, логистические компании, стартапы.

Мы ищем опытного Data Engineer для доработки существующего пайплайна загрузки данных из SAP HANA в Hadoop на Apache Spark.

Стек проекта: Apache Spark (Scala / PySpark), Hadoop (HDFS, Hive), SAP HANA (JDBC), Python, Airflow (желательно), GitLab, Docker, Kubernetes (будет плюсом)

Обязанности:

  • Доработка и оптимизация существующего Spark-лоадера для загрузки данных из SAP HANA в Hadoop.
  • Реализация многопоточной (параллельной) загрузки для повышения производительности и сокращения времени выполнения.
  • Оптимизация Spark-джоб: работа с партиционированием, настройка параметров JDBC, устранение data skew.
  • Перенос пайплайна из Jupyter Notebook в промышленный ETL-процесс (Airflow, bash-скрипт или Spark Submit).
Требования:
  • Опыт работы с Apache Spark: написание и оптимизация пайплайнов обработки больших данных.

  • Уверенные знания партиционирования и многопоточной загрузки из реляционных БД в Spark.

  • Опыт интеграции со сторонними источниками данных по JDBC (желательно SAP HANA).

  • Знание Hadoop-экосистемы.

  • Опыт работы с Python, Scala или Java.

  • Умение работать с системами контроля версий (Git).

Будет плюсом:

  • Опыт построения автоматизированных ETL пайплайнов (Airflow).

  • Опыт работы с большими компаниями и высоконагруженными системами.

  • Навыки мониторинга и алертинга (Grafana, Zabbix).

Условия:
  • Реальная задача по оптимизации производительности на живых больших данных.

  • Работа в команде с сильной экспертизой в Big Data.

  • Возможность влиять на архитектуру и процессы.

  • Аутстафф проект
  • Сотрудничество через форму ИП или СЗ
Навыки
  • Hadoop
  • Apache Spark
  • Apache Airflow
Посмотреть контакты работодателя

Похожие вакансии

LIAN
Удаленная работа
  • Москва

  • до 300000 RUR

Рекомендуем
HuntIT
Удаленная работа
  • Москва

  • до 300000 RUR

Рекомендуем
Amex Development

Data Engineer

Amex Development

Удаленная работа
  • Москва

  • до 330000 RUR

Рекомендуем
Clear Mind

Data Engineer

Clear Mind

Удаленная работа
  • Москва

  • до 330000 RUR

ВБЦ

Data Engineer

ВБЦ

Удаленная работа
  • Москва

  • от 263000 RUR

Selecty
Удаленная работа
  • Москва

  • от 300000 RUR

Холдем

Senior Data Engineer

Холдем

Удаленная работа
  • Москва

  • от 300000 RUR

Группа Адмитад
Удаленная работа
  • Москва

  • от 300000 RUR

Secreate
Удаленная работа
  • Москва

  • от 300000 RUR

Медиа Ком

Data Engineer

Медиа Ком

Удаленная работа
  • Москва

  • от 300000 RUR

Точка
Удаленная работа
  • Москва

  • до 490000 RUR

АйТиИ Экспо Интернешнл

Data Engineer/Инженер данных

АйТиИ Экспо Интернешнл

Удаленная работа
  • Москва

  • до 490000 RUR

Employcity

Data Scientist

Employcity

Удаленная работа
  • Москва

  • до 490000 RUR

Рунити
Удаленная работа
  • Москва

  • до 490000 RUR

Диплей

Data Engineer [Middle]

Диплей

Удаленная работа
  • Москва

  • до 490000 RUR

Selecty
Удаленная работа
  • Москва

  • до 350000 RUR

Hi, Rockits!

DS/ML engineer

Hi, Rockits!

Удаленная работа
  • Москва

  • до 350000 RUR

Битрикс24
Удаленная работа
  • Москва

  • до 350000 RUR

Hi, Rockits!
Удаленная работа
  • Москва

  • до 350000 RUR

Платформа

Data Engineer

Платформа

Удаленная работа
  • Москва

  • до 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию