GigaChat — мультимодальная модель, которая работает с текстом, аудио, изображениями и видео. Команда ML-инженеров отвечает за весь технический слой, который обеспечивает её развитие: пайплайны обработки и синтеза данных по всем модальностям, обёрнутые в надёжные сервисы; хранение и версионирование терабайт датасетов; хостинг reward-моделей и инфраструктуру для online RL; инструменты оценки и валидации.
Это фундамент, на котором стоит вся работа с данными в цикле разработки GigaChat. Мы строим инфраструктуру, без которой данные для обучения моделей просто не появятся.
Мы ищем технически сильного лидера, который умеет строить стабильную инженерную функцию: принимать архитектурные решения, выстраивать процессы совместной работы с командами данных и research, развивать инженеров и обеспечивать, чтобы внутренние заказчики получали инструменты и данные в нужные сроки.
Задачи
- развить команду и выстроить направление (возглавить команду ML-инженеров, специализирующихся на инфраструктуре данных и MLOps. Усилить техническую экспертизу команды, повысить скорость разработки и надёжность инфраструктуры. Выстроить взаимодействие с командами данных, research и model training)
- выстроить платформу хранения и обработки больших данных (проектировать и масштабировать инфраструктуру хранения датасетов — терабайты и петабайты данных по всем модальностям: текст, аудио, изображения, видео. Организовать работу с YTsaurus (YT): таблицы, операции, MapReduce-пайплайны, версионирование датасетов на масштабе production. Выстраивать надёжные пайплайны очистки, фильтрации, дедупликации и нормализации данных с учётом специфики каждой модальности. Обеспечивать воспроизводимость и прозрачность: версионирование датасетов, документация состава, источников и ограничений)
- упаковать пайплайны генерации данных в сервисы (превращать ad-hoc пайплайны генерации данных в надёжные, масштабируемые сервисы с понятным API — для текстовых, аудио-, визуальных и видеоданных. Строить инфраструктуру синтеза данных как набор переиспользуемых компонентов: генерация, аугментация, верификация синтетических примеров. Выстраивать процессы, при которых новый тип данных можно «поставить на конвейер» быстро, без перестройки всей системы с нуля. Делать так, чтобы команды данных были независимы от ручных операций и могли масштабировать производство датасетов самостоятельно. Обеспечивать SLA на поставку данных: предсказуемые сроки, мониторинг состояния пайплайнов, алертинг на сбои)
- обеспечить инфраструктуру для online RL и reward-моделей (разворачивать и поддерживать хостинг reward-моделей для использования в online RL и GRPO — стабильно, с низкой латентностью, под нагрузкой. Строить инфраструктуру для сбора и обработки rollout data, trajectory data и reward-сигналов в реальном времени. Обеспечивать надёжность и масштабируемость контуров online RL: от сбора данных до их передачи в обучение. Ускорять цикл «гипотеза → данные → обучение → оценка» — так, чтобы от идеи до результата проходили дни, а не недели)
- построить инструменты валидации и оценки моделей (разрабатывать инструменты для валидации качества моделей и автоматического контроля качества данных. Создавать benchmark-наборы и метрики, которые действительно предсказывают поведение модели в production. Автоматизировать бенчмаркинг и анализ деградаций так, чтобы просадка качества обнаруживалась быстро и объяснялась через данные. Организовать трекинг экспериментов, версионирование данных и моделей, мониторинг результатов)
- развивать MLOps и инфраструктуру экспериментов (поддерживать инфраструктуру для хостинга и использования open source моделей (Llama, Qwen, Mistral и др.) внутри пайплайнов генерации данных. Выстраивать процессы проведения экспериментов с LoRA, QLoRA и SFT в рамках исследований данных).
Для нас важно
- опыт руководства командой ML-инженеров или data engineering от 2–3 лет
- сильный технический бэкграунд: Python, опыт построения production-grade пайплайнов обработки данных
- опыт работы с большими объёмами данных и распределёнными системами хранения и обработки (YT, Spark, Hadoop или аналоги)
- умение проектировать и поддерживать сервисы с требованиями к надёжности, latency и масштабируемости
- понимание полного цикла работы с данными для обучения моделей: сбор, очистка, валидация, синтез, версионирование
- опыт работы с LLM — как open source (Llama, Mistral, Qwen), так и проприетарными (GPT, Claude, Gemini)
- понимание подходов к post-training: SFT, DPO, reward modeling, online RL
- умение работать с внутренними заказчиками: переводить их потребности в инженерные задачи, выстраивать предсказуемый процесс поставки
- умение принимать архитектурные решения и строить инфраструктуру, которая не становится узким местом при росте
- умение работать на стыке engineering, research и data.
Будет плюсом
- опыт работы с YTsaurus: таблицы, операции, пайплайны на MapReduce
- опыт построения сервисов для хостинга моделей с требованиями к latency и надёжности (vLLM, TGI и аналоги)
- опыт построения инфраструктуры для online RL: rollout data, reward inference, training loops
- опыт работы с verl, llm-foundry или другими фреймворками для обучения LLM
- опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W&B)
- опыт развёртывания и мониторинга ML-моделей в production
- опыт работы с фреймворками для агентов и RAG (LangChain, LangGraph и аналоги).
Мы предлагаем
- крупнейшее DS&AI community — более 600 DS-специалистов банка
- дайджест о самых последних разработках в области DS&AI и отчеты с крупнейших конференций мира
- возможность выбрать удобный формат работы: гибрид или офис
- комфортный современный офис: ст. м. Кутузовская, пр. Кутузовский, 32
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека выгоднее до 7% для каждого сотрудника
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.