Мы создаем высокотехнологичную платформу, которая позволяет эффективно обучать AI-модели (включая большие языковые модели, LLM), используя простаивающие вычислительные мощности GPU в дата-центрах по всему миру. Наша цель — построить масштабируемую, отказоустойчивую распределенную систему для безопасного и высокопроизводительного обучения моделей.
Для усиления нашей команды мы ищем талантливого AI / ML инженера, который возьмется за проектирование и реализацию ключевых компонентов нашего распределенного ML-пайплайна.
Что мы предлагаем
Конкурентная зарплата: до $10 000 (на руки).
Полностью удаленная работа из любой точки мира.
Влияние на архитектуру: Возможность с нуля формировать облик compute-платформы.
Масштабные задачи: Работа с кластерами из десятков и сотен GPU в различных дата-центрах.
Технологическая свобода: Самостоятельный выбор оптимальных технологий и инструментов для построения ML-пайплайна.
Динамичная среда: Сложные вызовы, быстрые итерации, минимум бюрократии.
Ключевая роль: Ваша работа будет напрямую влиять на развитие и успех нашего бизнеса.
Чем предстоит заниматься:
Разработка и оптимизация end-to-end пайплайна обучения моделей (LLM, классические ML, мультимодальные).
Интеграция фреймворков (PyTorch, TensorFlow, JAX) с нашей compute-платформой.
Настройка и оптимизация распределенного обучения (Data/Model Parallel, FSDP/ZeRO, DDP).
Разработка и оптимизация Docker-контейнеров для задач обучения и их оркестрация с помощью Kubernetes.
Построение надежного пайплайна данных: от загрузки и подготовки до обучения и выгрузки артефактов.
GPU-профилирование и низкоуровневая оптимизация (CUDA, NCCL).
Взаимодействие с backend-командой по проектированию API для оркестрации задач.
Настройка системы мониторинга обучения: сбор метрик, логов и данных профилирования.
Исследование и внедрение новых фреймворков и подходов для ускорения обучения LLM.
Что мы ожидаем:
Профильный опыт работы более 5 лет.
Отличный практический опыт работы с PyTorch. Знание TensorFlow или JAX будет большим плюсом.
Опыт настройки и оптимизации распределенного обучения моделей с использованием PyTorch Distributed (DDP), DeepSpeed (FSDP, ZeRO), Hugging Face Accelerate.
Понимание архитектуры GPU, принципов работы CUDA и библиотек межпроцессного взаимодействия (NCCL).
Глубокие знания Python и коммерческий опыт разработки, включая умение писать оптимизированный код для тренировки моделей.
Опыт работы с Docker и с Kubernetes. Понимание полного цикла ML-процессинга: работа с датасетами, загрузчиками данных, системой чекпоинтов, возобновления обучения и метрик.
Умение выявлять и устранять "узкие места" производительности (CPU/GPU, I/O, сеть). Знание инструментов мониторинга: TensorBoard, Weights & Biases, Prometheus.
Будет преимуществом:
Опыт тонкой настройки (fine-tuning) и обучения больших языковых моделей (LLM) с использованием таких инструментов, как Hugging Face Transformers, DeepSpeed и Megatron-LM.
Опыт разработки или глубокой оптимизации кластерных вычислительных систем.
Навыки оптимизации инференса с помощью Triton, ONNX, TensorRT.
Базовые знания Go или Rust для взаимодействия с низкоуровневыми компонентами системы.
Скорее оставляйте отклик и мы обязательно с вами свяжемся
ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ
Москва
до 500000 RUR
Москва
до 310000 RUR
Москва
до 310000 RUR
Novakid Inc
Москва
от 6000 USD
Innovative People
Москва
до 7000 USD
Онмун компани
Москва
до 300000 RUR