Senior MLOps Engineer (ONSITE Dubai)

Описание вакансии

ONSITE позиция в Дубае (4 дня в неделю — работа из офиса)
Английский — B2 или выше

Задачи:

Проектировать и оптимизировать пайплайны инференса AI, обеспечивая низкую задержку и высокую пропускную способность сервинга моделей для корпоративных приложений.
Создавать и поддерживать масштабируемую AI‑инфраструктуру для эффективной поддержки сложных, крупномасштабных нагрузок.
Обеспечивать надежное развертывание и эксплуатацию высокопроизводительных фреймворков сервинга моделей AI в разных средах.
Обеспечивать эффективное использование GPU и экономичное выполнение AI‑нагрузок.
Выстроить комплексный мониторинг и наблюдаемость для стабильной производительности инференса моделей.
Соблюдать требования корпоративной безопасности, принципы governance и лучшие практики MLOps на всем протяжении жизненного цикла поставки AI‑решений.

Основные требования:

Степень бакалавра или эквивалент.
7+ лет совокупного инженерного или операционного опыта.
Не менее 5 лет релевантного опыта в аналогичной роли.
Опыт работы в крупных и сложных глобальных предприятиях с высокой доступностью, высокими транзакционными нагрузками и географической распределеностью.

Ключевые знания и навыки:

Инференс глубинного обучения: экспертиза в TensorRT, vLLM, Triton, FasterTransformer
Оптимизация моделей: опыт с ONNX, GGUF, квантованием (FP16, INT8, FP8).
Распределенные системы: опыт с NCCL, MPI, InfiniBand, RDMA и мультиузловыми GPU‑нагрузками
Масштабируемый AI serving: практический опыт с Triton Inference Server, vLLM, TensorFlow Serving
Профилирование и отладка: знакомство с nvidia-smi, Nsight, nvprof, TensorRT Profiler
Управление GPU в Cloud и On‑Prem: опыт с Kubernetes (K8s), OpenShift, планированием GPU (Kubeflow, Ray, KServe).
Понимание векторных баз данных и их применения в аналитике и AI‑нагрузках
Уверенное владение Python, Scala и SQL
Опыт совместной работы над программными проектами и управления архитектурой таких проектов
Продвинутые навыки работы в среде Linux

Будет преимуществом:

GPU‑программирование: знание CUDA, cuDNN, NCCL, Tensor Cores для оптимизации инференса
Speculative Decoding и FlashAttention для инференса LLM
Опыт оптимизации потоковой передачи токенов для чат‑приложений
Опыт работы с векторными базами данных (Qdrant, Milvus) для RAG‑нагрузок

Преимущества: