Команда RnD NLP занимается исследованиями на переднем краю LLM-строения. Мы стремимся доводить результаты исследований до прикладного применения и сделать флагманскую модель GigaChat умнее, лучше и полезнее.
Обязанности
- Подготовка мультимодальных датасетов и бенчмарков для ML экспериментов продуктовыми командами по различным направлениям генеративных моделей: speech, music, image, video, 3D, text
- Сбор, обработка и хранение данных из открытых источников (web-сайты, huggingface, youtube, telegram, VK, pinterest, и пр)
- Генерация синтетических данных различными open-source моделями (qwen, flux, gemini и др)
- Организация проектов ручного сбора и валидации данных на крауд-платформах TagMe, Elementary, ЯЗ
- Фильтрация и процессинг данных на предмет дублей, блюра, вотермарок, неправомерного контента, реалистичности, эстетичности и технического качества.
Технический стек:
S3, PG, Hadoop, GreenPlum, Airflow, Docker, Kubernetes, Git, Vault, Python/SQL, ML Space, Confluence, Jira
Требования
- Знания Python (библиотеки для работы с данными и API)
- Понимание принципов ETL/ELT, жизненного цикла данных
- Опыт работы с ML-пайплайнами и дата сетами для CV/NLP
- Навыки работы с SQL (SELECT, JOIN, агрегаты, простые подзапросы)
- Базовое понимание форматов данных (CSV, JSON, Parquet), принципов сериализации и хранения
- Опыт работы с Docker/Kubernetes
Будет плюсом:
- Опыт работы с Airflow или другими оркестраторами
- Понимание облачных сервисов
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- система обучения для профессионального и карьерного развития
- расширенный полис ДМС с первого дня работы и страхование для семьи
- программа ипотеки для сотрудников
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.