Москва, бульвар Энтузиастов, 2
Метро: Площадь ИльичаAI Platform Team отвечает за всю инфраструктуру AI: от исследований моделей до их продакшн-запуска.
Наша задача — дать продуктам надёжный и эффективный доступ к LLM. Строить отказоустойчивые системы, которые держат нагрузку.
Мы ищем инженера, который будет проектировать, разворачивать и оптимизировать платформу для инференса больших языковых моделей. Работать с vLLM/Triton, GPU-кластерами, observability-стеком, чтобы модели работали быстро, стабильно и экономично.
Если вы строили высоконагруженные ML-системы и хотите решать инфраструктурные задачи в области LLM — давайте обсудим.
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ:
Развитие и эксплуатация инфраструктуры для инференса LLM, включая BitrixGPT, локальные и облачные модели:
внедрение стеков для эффективного обслуживания LLM, таких как vLLM, Nvidia Triton Inference Server и их аналогов,
оптимизация схем распределения нагрузки, батчинга и стриминга токенов.
Настройка, эксплуатация и оптимизация GPU-кластеров для инференса:
Профилирование и отладка сервисов инференса:
Настройка наблюдаемости (observability) AI-стека:
Участие в разработке и улучшении платформенных процессов:
ЧТО МЫ ОЖИДАЕМ ОТ КАНДИДАТА:
Продовый опыт эксплуатации ML-/LLM-сервисов.
Практический опыт работы с контейнеризацией и оркестрацией (Docker).
Владение Python для разработки сервисов, утилит, оркестрации и автоматизации.
Понимание устройства современных LLM: архитектура трансформеров, токенизация, контекстное окно, влияние параметров (batch size, KV-cache) на latency и throughput.
Опыт настройки мониторинга и логирования в production (Prometheus, Grafana, ELK-стек, Sentry или аналоги).
Навыки анализа и оптимизации производительности сервисов: профилирование, поиск и устранение узких мест.
Готовность отстаивать своё мнение и предлагать улучшения для достижения наилучшего результата.
ТАКЖЕ ДЛЯ НАС ВАЖНО:
Практический опыт работы с vLLM и/или SGLang.
Опыт работы с GPU-инфраструктурой: CUDA, мониторинг и тюнинг GPU-нагрузки.
Знание принципов безопасной разработки и эксплуатации веб-сервисов.
ЧТО МЫ ПРЕДЛАГАЕМ:
Москва
Не указана
Москва
Не указана