Data Инженер (RnD ML)

Data Инженер (RnD ML)

Москва, Кутузовский проспект, 32к1

Метро: Кутузовская

Показать контакты

Описание вакансии

Команда RnD NLP занимается исследованиями на переднем краю LLM-строения. Мы стремимся доводить результаты исследований до прикладного применения и сделать флагманскую модель GigaChat умнее, лучше и полезнее.

Обязанности

Подготовка мультимодальных датасетов и бенчмарков для ML экспериментов продуктовыми командами по различным направлениям генеративных моделей: speech, music, image, video, 3D, text
Сбор, обработка и хранение данных из открытых источников (web-сайты, huggingface, youtube, telegram, VK, pinterest, и пр)
Генерация синтетических данных различными open-source моделями (qwen, flux, gemini и др)
Организация проектов ручного сбора и валидации данных на крауд-платформах TagMe, Elementary, ЯЗ
Фильтрация и процессинг данных на предмет дублей, блюра, вотермарок, неправомерного контента, реалистичности, эстетичности и технического качества.

Технический стек:

S3, PG, Hadoop, GreenPlum, Airflow, Docker, Kubernetes, Git, Vault, Python/SQL, ML Space, Confluence, Jira

Требования

Знания Python (библиотеки для работы с данными и API)
Понимание принципов ETL/ELT, жизненного цикла данных
Опыт работы с ML-пайплайнами и дата сетами для CV/NLP
Навыки работы с SQL (SELECT, JOIN, агрегаты, простые подзапросы)
Базовое понимание форматов данных (CSV, JSON, Parquet), принципов сериализации и хранения
Опыт работы с Docker/Kubernetes

Будет плюсом:

Опыт работы с Airflow или другими оркестраторами
Понимание облачных сервисов

Условия

комфортный современный офис рядом с м. Кутузовская
гибридный формат работы
ежегодный пересмотр зарплаты, годовая премия
корпоративный спортзал и зоны отдыха
система обучения для профессионального и карьерного развития
расширенный полис ДМС с первого дня работы и страхование для семьи
программа ипотеки для сотрудников
бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
вознаграждение за рекомендацию друзей в команду Сбера.

Навыки

S3
Hadoop
Greenplum
Python
SQL
Kubernetes

Посмотреть контакты работодателя

Адрес

Зарплата
Не указана
Занятость
,
Опыт работы
От 1 года до 3 лет
Дата размещения:
21.04.2026 04:10:10

Похожие вакансии

Data Scientist (Управление моделирования партнерств и ИТ-процессов)

Банк ВТБ (ПАО)

Москва
Не указана

Рекомендуем

Middle ML Engineer [R&D Центр Телеком, МТС Веб Сервисы]

МТС

Москва
Не указана

Рекомендуем

ML Engineer

СБЕР

Москва
Не указана

Рекомендуем

Middle Data Scientist в команду моделирования розничного бизнеса

Банк ВТБ (ПАО)

Москва
Не указана

Data Scientist

Агропромцифра

Москва
Не указана

Дата-инженер AI/ML

Rubytech

Москва
Не указана

ML-инженер

Цифровой аудит

Москва
Не указана

Middle \ Senior Data Scientist (LLM)

Банк ВТБ (ПАО)

Москва
Не указана

Data Engineer (S3, Spark)

Тера Интегро

Москва
Не указана

Data Scientist, ML Global

Ozon

Москва
Не указана

Data engineer (оптимизация)

Тера Интегро

Москва
Не указана

Senior Data Scientist (LLM)

Lamoda Tech

Москва
Не указана

Data Scientist

GlowByte

Москва
Не указана

ML Engineer RecSys в Маркет

Яндекс

Москва
Не указана

Data scientist (NLP, LLM)

СБЕРКОРУС

Москва
Не указана

Риск-менеджер (Data Scientist)

Банк ПСБ

Москва
Не указана

Data Engineer (в DS команду)

Островок

Москва
Не указана

ML-инженер

Росгосстрах

Москва
Не указана

Data Engineer

Rubytech

Москва
Не указана

Prompt инженер (RnD ML)

СБЕР

Москва
до 175000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.

Оставить вакансию