Мы - команда ML-инженеров GigaChat Data. Наша команда готовит данные для обучения всей линейки моделей LLM GigaChat (GigaChat, GigaChat Vision, GigaChat Audio, Giga Embeddings и др.). Мы собираем данные как для базовых моделей, так и для их адаптации под конкретные сценарии:
• Core модели – базовые модели
• продукты B2C – WEB-версия GigaChat, персонализированные интеллектуальные ассистенты и пр.
• внутренние банковские задачи – автоматизация обработки документов, анализ финансовых данных, поддержка сотрудников и пр.
• внешние заказчики – кастомные решения для корпоративных клиентов, интеграция LLM в бизнес-процессы и пр.
Обязанности
- подготовка данных для обучения и тестирования моделей
- предобработка, фильтрация и сегментация данных
- выстраивание архитектуры и написание пайплайнов разметки/сбора данных
- оптимизация алгоритмов обработки, хранения и передачи больших объёмов данных
- поддержка и развитие документации, участие в принятии архитектурных решений/
Требования
- опыт работы на Python на высоком уровне (алгоритмы, структура данных, GIL, async)
- глубокое знание SQL и оптимизации запросов
- базовые знания статистики
- опыт работы с краудсорсингом
- знание подходов по оценке качества и подсчёта метрик LLM и NLP решений
Будет преимуществом:
- опыт работы над улучшением качества моделей.
Условия
- комфортный офис в Москве на Кутузовском проспекте (Sber City)
- возможность выбрать удобный график – офис/гибрид
- ежегодный пересмотр зарплаты и годовая премия
- корпоративный спортзал и зоны отдыха
- более 400 образовательных программ СберУниверситета для профессионального и карьерного развития
- расширенный ДМС, льготное страхование для семьи и корпоративная пенсионная программа
- ипотека для сотрудников выгоднее до 4%
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров.