ML-инженер

Описание вакансии

Мы создаём передовой блокчейн для распределенных вычислений в сфере ИИ. Мы ищем инженера, специализирующегося на инфраструктуре и производительности вывода машинного обучения. Ваша задача — сделать крупномасштабный вывод ИИ быстрым, экономически эффективным и безопасным в среде гетерогенных GPU-узлов, включая конфиденциальные и минимизированные по уровню доверия среды.

Обязанности:

Архитектура и разработка децентрализованных ИИ-систем корпоративного уровня (pro-code);
Создание и масштабирование ИИ-инфраструктуры на базе Kubernetes с использованием Docker, K8s, Terraform/Pulumi и распределенных фреймворков (KubeRay, SkyPilot);
Оптимизация вывода LLM / Transformer (задержки, пропускная способность, память);
Работа с vLLM, SGLang, пакетной обработкой, KV-кэшем, потоковым выводом;
Развертывание и настройка Triton Inference Server, TensorRT, ONNX Runtime;
Применение квантования (INT8 / FP16 / FP8) и анализ компромиссов между точностью и скоростью;
Профилирование и оптимизация использования CUDA/GPU;
Выбор и тестирование GPU для распределенных рабочих нагрузок;
Построение защищенных конвейеров вывода с использованием TEE (Intel SGX, NVIDIA Confidential Computing, аттестация):
Интеграция вывода ИИ с планированием на основе блокчейна и уровнями доверия.

Требования:

AI / Inference: PyTorch, ONNX; vLLM, SGLang; Triton Inference Server, TensorRT; CUDA, NVIDIA NGC;
Знания в области систем машинного обучения: Архитектура Transformer, механизм внимания; KV-кэш, токенизация, эмбеддинги; Линейная алгебра для повышения производительности машинного обучения;
Языки программирования: Python, Rust.

Будет плюсом:

— Понимание основ блокчейна;

— Опыт работы с распределенными системами / P2P-сетями;

— Масштабируемые системы машинного обучения в производственной среде;

— Сильный технический английский.

Посмотреть контакты работодателя