Мы - команда ML-инженеров GigaChat Data. Наша команда готовит данные для обучения всей линейки моделей LLM GigaChat (GigaChat, GigaChat Vision, GigaChat Audio, Giga Embeddings и др.). Мы собираем данные как для базовых моделей, так и для их адаптации под конкретные сценарии:
• Core модели – базовые модели;
• Продукты B2C – WEB-версия GigaChat, персонализированные интеллектуальные ассистенты и пр.;
• Внутренние банковские задачи – автоматизация обработки документов, анализ финансовых данных, поддержка сотрудников и пр.;
• Внешние заказчики – кастомные решения для корпоративных клиентов, интеграция LLM в бизнес-процессы и пр.
Обязанности
- внедрение сервиса поиска в работу GigaChat
- собирать данные для alignment-обучения LLM: Supervised Finetuning (SFT), Reinforcement Learning (DPO, PPO, GRPO и др.)
- улучшать пайплайны предобработки данных: автоматизация фильтрации, очистки и подготовки для разметки
- работать в плотной связке с ML-командой: LoRA-finetuning, проверка экспериментальных гипотез, анализ результатов
- взаимодействовать с командой асессоров/разметчиков: мониторинг качества, корректировка инструкций, настройка разметки (включая SBS/side-by-side)
- рассчитывать метрики и принимать решения по улучшению качества данных, сравнивая с конкурентами (Perplexity, OpenAI (ChatGPT Search), DeepSeek, YandexGPT (Яндекс Нейро) и пр.)
- развивать комплекс DeepResearch: создавать глубокие отчёты по пользовательским запросам и бизнес-аналитике.
Требования
- отличное знание Python и опыт работы с проприетарными и open-source LLM (Llama, Mistral, Qwen, GPT, Anthropic и т. д.)
- понимание процессов подготовки данных и их использования в больших языковых моделях: сбор, фильтрация, валидация
- навыки в построении пайплайнов для SFT/RL, настройке LoRA-finetuning и работе над многозадачными проектами
Будет плюсом
- опыт работы с одной или несколькими модальностями (аудио, vision, видео и пр.)
- опыт с LLM-агентами и фреймворками: LangChain, LangSmith, LangGraph, GraphRAG, GPTIndex, FAISS, RAG, ChromaDB и т. п
- опыт работы в поисковых проектах (интеграция поисковых движков, настройка ранжирования, работа с бэкендом поиска).
Условия
- комфортный современный офис рядом с м. Кутузовская
- гибридный формат работы
- ежегодный пересмотр зарплаты, годовая премия
- корпоративный спортзал и зоны отдыха
- система обучения для профессионального и карьерного развития
- расширенный полис ДМС с первого дня работы и страхование для семьи
- льготная программа ипотеки для сотрудников
- гибкий дисконт по ипотечному кредиту, равный 1/3 ключевой ставки ЦБ
- бесплатная подписка СберПрайм+, скидки на продукты компаний-партнеров
- вознаграждение за рекомендацию друзей в команду Сбера.