Data Engineer (Kandinsky)

СБЕР

Data Engineer (Kandinsky)

Описание вакансии

Ищем талантливых специалистов в команду Управления базовых моделей Kandinsky.

Kandinsky — линейка моделей для генерации изображений и видео по текстовому описанию. Наша команда занимается обучением и развитием модели, аналитикой и построением метрик её работы, специализируется на создании инновационных решений в области искусственного интеллекта и нейросетей. Мы разрабатываем модели, направленные на улучшение взаимодействия между человеком и AI, автоматизацию процессов анализа больших объемов данных, распознавание изображений и обработку естественного языка, а также создание креативных инструментов для автоматической генерации визуального контента высокого уровня.

Обязанности

  • проектирование и разработка ETL/ELT-пайплайнов для обработки изображений и видеоданных, как в экосистеме Apache Airflow, так и в формате автономных Python-скриптов.
  • автоматизация процессов загрузки, предобработки и анализа данных: загрузка изображений и видео, обработка полученных данных, определение технических артефактов (например, наличие чёрных полос), трансформация и подготовка данных под требуемые форматы.
  • проектирование и поддержка высоконагруженных пайплайнов с возможностью масштабирования на распределённую обработку.
  • разработка высоконагруженных процессов нарезки, сжатия и конвертации видеофайлов крупного размера с использованием оптимизированных инструментов (ffmpeg, multiprocessing, async-подходы)
  • реализация механизмов отслеживания состояния и истории данных: учёт уже обработанных файлов, планирование задач по догрузке, ведение служебных таблиц
  • поддержка платформы данных: создание и оптимизация DDL/DML-скриптов, настройка таблиц под аналитические и операционные нагрузки
  • подготовка датасетов по требованиям внутренних и внешних заказчиков, обеспечение качества и полноты данных
  • поддержка CI/CD-процессов и стандартизация кодовой базы в соответствии с инженерными практиками и паттернами проектирования.

Требования

  • уверенный практический опыт разработки ETL-процессов с использованием Apache Airflow либо аналогичных систем оркестрации
  • опыт работы с S3 или совместимыми объектными хранилищами, понимание структуры и принципов организации data-lake
  • понимание принципов распределённой обработки данных и работы PySpark
  • уверенные навыки разработки на Python, включая использование асинхронных инструментов, многопроцессной обработки, работы с большими файлами и медиа-данными
  • опыт написания Bash-скриптов для автоматизации рутинных процессов.
  • глубокое понимание принципов проектирования чистой архитектуры, шаблонов проектирования и построения легко-поддерживаемых модульных систем
  • опыт работы с PostgreSQL и ClickHouse, навыки написания оптимизированных запросов и проектирования таблиц
  • опыт работы с Docker и Kubernetes, понимание контейнеризации пайплайнов данных.

Условия

  • конкурентный уровень заработной платы, годовые премии по результатам работы
  • участие в развитии и создании OpenSource продуктов
  • корпоративная пенсионная программа, страхование от несчастных случаев, социальные гарантии, ДМС
  • комфортный офис Sbergile Home (метро Кутузовская).
Посмотреть контакты работодателя

Похожие вакансии

ИЦ АЙ-ТЕКО

Data Engineer

ИЦ АЙ-ТЕКО

Полный день
  • Москва

  • Не указана

Рекомендуем
ИЦ АЙ-ТЕКО

Data Engineer

ИЦ АЙ-ТЕКО

Полный день
  • Москва

  • Не указана

Рекомендуем
Т-Банк

Data Engineer

Т-Банк

Полный день
  • Москва

  • Не указана

Рекомендуем
ИЦ АЙ-ТЕКО

Data Engineer (middle/senior)

ИЦ АЙ-ТЕКО

Полный день
  • Москва

  • Не указана

Тера Интегро

Data engineer (ETL)

Тера Интегро

Полный день
  • Москва

  • Не указана

АНО ЦИСМ

Data Engineer

АНО ЦИСМ

Полный день
  • Москва

  • Не указана

Яндекс
Полный день
  • Москва

  • Не указана

1001 LABS

Data Engineer

1001 LABS

Удаленная работа
  • Москва

  • Не указана

Цифровой аудит

Data Engineer

Цифровой аудит

Полный день
  • Москва

  • Не указана

WILDBERRIES
Полный день
  • Москва

  • Не указана

Система Плюс
Полный день
  • Москва

  • Не указана

М.Видео-Эльдорадо

Data Engineer (Middle)

М.Видео-Эльдорадо

Удаленная работа
  • Москва

  • Не указана

Хайлэнд Голд

Data Engineer (Al)

Хайлэнд Голд

Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Т-Банк
Полный день
  • Москва

  • Не указана

Газпромбанк

Data Engineer

Газпромбанк

Удаленная работа
  • Москва

  • Не указана

Дата Дженерейшн

Data Engineer

Дата Дженерейшн

Удаленная работа
  • Москва

  • до 350000 RUR

Цифровые привычки

Data Engineer (проект Сбера)

Цифровые привычки

Полный день
  • Москва

  • до 350000 RUR

BMW
Полный день
  • Москва

  • до 350000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию