Senior/middle ML engineer

Астана, улица Сыганак, 60/3

Описание вакансии

Мы разрабатываем масштабную систему видеомониторинга и интеллектуальной аналитики. Проект включает обработку видеопотоков, анализ событий и построение AI-решений уровня production. Сейчас мы в поисках Senior/middle ML engineer

Что должен знать кандидат:

ViT & Мультимодальность: Глубокое понимание Vision Transformers (ViT, Swin, DETR) и видео-трансформеров (TimeSformer, ViViT). Опыт работы с VLM (LLaVA, Qwen-VL) на стыке текста и видеопотоков, fine-tuning (LoRA/QLoRA).
Video Analytics & DeepStream: Проектирование highload пайплайнов для реал-тайм видеоаналитики. Практический опыт с NVIDIA DeepStream SDK (GStreamer, nvinfer, мультистриминг, трекинг), обработка RTSP-потоков с минимальным latency.
GPU Optimization & TensorRT: Профилирование и ускорение инференса на GPU. Уверенная работа с TensorRT (layer fusion, INT8/FP16 calibration, dynamic shapes, сборка движков через trtexec), понимание CUDA-специфики и узких мест памяти.
OpenVINO & Quantization: Оптимизация моделей для CPU/Edge-деплоя. Опыт работы с OpenVINO и NNCF для Post-Training Quantization (INT8/INT4), accuracy-aware тюнинг и минимизация деградации качества при сжатии.
Dynamo & Компиляция графов: Использование PyTorch 2.0 Dynamo (torch.compile) для JIT-компиляции и слияния графов (AOTAutograd, Triton kernels), ускорение обучения и инференса "из коробки".
LLM & Кастомные Агентные Системы: Проектирование агентных архитектур поверх LLM без жесткой привязки к "магии" фреймворков. Реализация графов состояний (LangGraph, конечные автоматы), кастомный Tool Calling/Function Calling, паттерны ReAct/Plan-and-Execute, управление контекстом и памятью агентов, оркестрация мультиагентного взаимодействия. Сервинг LLM (vLLM, Continuous Batching).
RAG & Retrieval: Проектирование пайплайнов от чанкинга до генерации. Понимание векторных БД (HNSW), типов эмбеддингов (Dense, Sparse, ColBERT) и архитектуры реранкинга.
System Design & MLOps: Проектирование end-to-end AI-архитектуры (FastAPI, K8s, Kafka), расчет Cost/Performance trade-off, LLMOps (Evaluation: RAGAS, LLM-as-a-Judge), CI/CD для ML-моделей.

Что должен уметь кандидат:

Строить highload-пайплайны видеоаналитики: Проектировать и запускать в прод системы реал-тайм обработки видео (десятки/сотни RTSP-потоков) на базе NVIDIA DeepStream. Уметь писать кастомные GStreamer-плагины, связывать трекинг и детекцию, минимизировать сквозное latency (e2e latency).
Выжимать максимум из железа (GPU/CPU Optimization): Брать PyTorch-модель и ускорять её в 3-10 раз. Самостоятельно конвертировать модели в ONNX/TensorRT (настраивать динамические размеры, INT8/FP16 калибровку) или OpenVINO (использовать NNCF для квантования с сохранением точности). Применять torch.compile (Dynamo) для ускорения тренировки и инференса.
Проектировать кастомные агентные системы: Создавать автономных AI-агентов с нуля (или на базе LangGraph), отказываясь от "магии" тяжелых фреймворков там, где нужен контроль. Уметь связывать LLM с внешними API (Function Calling), выстраивать графы состояний, управлять контекстом/памятью агента и обрабатывать его ошибки/галлюцинации.
Внедрять VLM и ViT в бизнес-процессы: Файн-тюнить Vision Transformers и мультимодальные модели (LLaVA, Qwen-VL) под специфические доменные данные (специфичные кадры, медицинские снимки, спутниковые фото). Склеивать CV-пайплайны (YOLO/DeepStream) с LLM для генерации текстовых отчетов по видео.
Собирать продакшен-системы на базе RAG: Инжестировать тонны неструктурированных данных, подбирать оптимальные стратегии чанкинга и эмбеддингов, строить гибридный поиск (BM25 + Dense) и реранкинг. Уметь оценивать качество RAG-пайплайна (RAGAS) и устранять галлюцинации.
Выводить AI в Production (End-to-End): Упаковывать модели в микросервисы (FastAPI/gRPC),orchestрировать их в Docker/Kubernetes. Настраивать CI/CD для ML, мониторить инференс (TTFB, throughput, GPU utilization, drift метрик) и строить процессы переобучения/обновления моделей без даунтайма.
Принимать архитектурные решения: Оценивать Cost/Performance trade-off: выбирать между вызовом API провайдера и деплоем Open Source модели на своих GPU; решать, когда писать кастомного агента на чистом Python, а когда использовать готовый фреймворк.
Брать техническое лидерство: Проектировать архитектуру AI-компонентов проекта, декомпозировать задачи для мидлов и джуниоров, проводить код-ревью ML-кода и задавать стандарты качества (логирование, тестирование, репродуктивность) в команде.