X5 Group — российская розничная торговая компания, управляющая продуктовыми торговыми сетями «Пятёрочка», «Перекрёсток» и «Чижик», а также цифровыми сервисами «Vprok.ru Перекрёсток», 5Post, «Много Лосося» и медиаплатформой Food.ru.
X5 Tech - IT-компания и основной цифровой партнер торговых сетей и бизнесов X5 Group. Команда из более 4000 специалистов разрабатывает решения, которые помогают 372 тысячам сотрудников группы работать с максимальным технологическим комфортом, а миллионам покупателей быстро и удобно покупать свежие продукты.
В X5 Технологии открыта позиция MLOps Support Engineer
Чем предстоит заниматься:
- Поддержка инфраструктуры ML/LLM: сопровождение виртуальных машин и контейнерных сред (Kubernetes), мониторинг распределения ресурсов (CPU/RAM/GPU), диагностика bottleneck'ов в инференсе моделей;
- Observability и алертинг: поддержка стека Prometheus / VictoriaMetrics + Grafana, написание запросов на PromQL и SQL для диагностики состояния сервисов, настройка SLO/SLI, создание дашбордов для отслеживания latency, throughput и ошибок LLM;
- Эксплуатация микросервисов: сопровождение распределенной архитектуры, трассировка запросов между сервисами, анализ логов при инцидентах;
- Инцидент-менеджмент: оперативное реагирование на алерты, проведение RCA, разработка ранбуков для типовых сценариев отказов (проседание GPU, заполнение VRAM, деградация API моделей);
- Взаимодействие с моделями: отладка API-запросов к LLM (OpenAI-compatible endpoints, локальные inference-серверы), диагностика ошибок токенизации, rate limiting, timeout'ов; Автоматизация рутины: написание Python-скриптов для автоматизации диагностики, сбора метрик, перезапуска зависших задач, парсинга логов;
- Эскалация: взаимодействие с командами разработки и инфраструктуры при сложных инцидентах, передача задач в сроки.
Что мы ожидаем от кандидата:
- Инфраструктура: понимание принципов работы виртуальных машин и контейнеризации; умение анализировать распределение ресурсов;
- Мониторинг: уверенное владение Prometheus и Grafana, написание запросов на PromQL; понимание метрик инференса (latency p95/p99, GPU utilization, queue size);
- Данные: знание Loki для анализа логов и метрик; базовое понимание векторных БД;
- Разработка: Python (автоматизация, скрипты для диагностики);
- LLM и API: понимание работы LLM-сервисов (инференс, токены, контекстное окно).
Будет плюсом:
- Опыт работы с LLM-инференс движками (vLLM, SGLang);
- Знание LangChain/LangFlow для понимания цепочек вызовов моделей.
Что важно:
- Мы ищем инженера, который понимает, что значит «модель упала по OOM» или «просел p95 latency», и может быстро локализовать проблему — в коде, инфраструктуре или самой модели.
Мы предлагаем:
- официальное оформление с белой ЗП, ежеквартальные премии по результатам работы;
- Удобный офис рядом с м. «Добрынинская» / удобный офис с бесплатной парковкой на м. «Волгоградский проспект» / МЦД «Калитники»
- гибкий график работы (с 8/9/10 утра) / График работы: 5/2, с 9:00 до 18:15 (в пятницу — до 17:00);
- возможность работать удалённо или в гибридном формате;
- широкий пакет ДМС (включая выезд за рубеж и стоматологию), страхование жизни и здоровья;
- возможность учиться и развиваться за счёт компании: внешние тренинги и семинары по профессиональным тематикам, участие в крупнейших конференциях страны, программы развития цифровых и управленческих навыков (Цифровая академия, Школа Тимлидов), онлайн и офлайн мастер-классы, корпоративный университет «X5 Полка», школа наставников и многое другое;
- программы мотивации для спикеров и авторов: внутренняя школа Speak Up School, Write Up, ачивки и баллы за выступления, подготовка спикеров к крупнейшим конференциям страны, сообщество авторов на Хабре, возможность шерить опыт с комьюнити внутренних и внешних экспертов;
- обмен опытом через cообщества: 12 технических комьюнити от java до devops;
- яркая корпоративная жизнь с большим количеством мероприятий, конкурсов и возможностей для творческой реализации: регулярные внутренние митапы, демо-дни, открытые микрофоны, день IT-специалиста, программы волонтерства, корпоративное предпринимательство X5 Idea Challenge;
Присоединяйся к команде X5 Tech, чтобы создавать будущее ритейла вместе с нами!