Middle ML Engineer (LLM Training from Scratch, Long-Context up to 1M)
Задача: создать собственную языковую модель (LLM) с нуля, масштабировать контекст до 1 000 000 токенов, построить полный пайплайн обучения, данных и оптимизации.
Обучение модели с нуля
Разработка и обучение архитектуры (Mamba / RWKV / SSM-подобные модели)
Создание и обучение собственного токенизатора
Реализация training loop, loss-ов, оптимизаций
Обучение модели поэтапно:
8k → 32k → 128k → 512k → 1M контекст
Построение пайплайна данных
Сбор и очистка корпуса текстов (50–300GB)
Дедупликация, нормализация, фильтрация
Streaming dataset, sharding, large-scale dataloaders
Подготовка long-sequence датасетов (до 1M токенов)
Инфраструктура тренинга
Multi-GPU обучение (DeepSpeed / FSDP)
Mixed precision (BF16)
Gradient checkpointing, memory optimization
Логирование (WandB/MLflow), трекинг метрик
Контроль качества (perplexity / eval sets)
Long-context специализация
Curriculum learning по длинам
Streaming training и state carry
Оптимизация модели под контекст до 1 000 000 токенов
Тестирование long-context задач (QA / reasoning / doc memory)
Инструкционное и диалоговое дообучение
Instruction-tuning под формат ассистента
Сбор и подготовка датасетов диалогов
Post-training улучшение качества
Требования
Обязательные
1. Опыт и образование
3+ лет опыта в Machine Learning / Deep Learning
Уверенный PyTorch (включая кастомные модели)
Опыт обучения моделей с нуля (не только fine-tune)
Опыт с Transformers или SSM-моделями
2. Навыки обучения LLM
Умение обучать модели от 50M до 1B параметров
Опыт создания токенизаторов (SentencePiece/BPE)
Умение работать с большими датасетами (10–500GB)
Опыт Multi-GPU обучения (DDP/DeepSpeed/FSDP)
3. Инфраструктура
Docker, Linux, Git
MLflow / WandB
Оптимизация GPU VRAM
Знание NVIDIA stack (nvidia-smi, DCGM, profiling)
4. Математика и алгоритмы
Оптимизация (AdamW, LR schedules, warmup)
регуляризация
работа с длинными последовательностями
понимание SSM/RNN/attention различий
Будет плюсом
Опыт с Mamba, RWKV, RetNet, SSM-based архитектурами
Опыт long-context тренировки (64k–1M+)
Опыт обучения embedding моделей
Знание DeepSpeed ZeRO-3
Опыт в data engineering / распределённых данных
Понимание архитектур Llama/GPT
Опыт RAG систем
Что мы предлагаем
Реальная возможность создать свою собственную LLM
Проект уровня R&D, но с чёткой практической целью
Работа рядом с CTO (быстрое принятие решений)
Возможность вырасти до Senior/Lead
Открытая архитектура, GPU ресурсы
Современный ML стек
Процесс отбора
1. Тестовое задание:
Обучить небольшую модель с нуля (10–20M параметров):
создать токенизатор
собрать датасет
написать training loop
показать логи, чекпоинт, perplexity
2. Техническое интервью (ML + deep learning + PyTorch)
3. Оффер
Минск
Не указана