Senior LLM Backend Engineer

Москва, Рочдельская улица, 15с1

Метро: Краснопресненская

Описание вакансии

Наша команда обеспечивает доступность нейросетей для тысяч пользователей одновременно. Мы сопровождаем и улучшаем production-платформу для хостинга LLM: ее надежность, производительность и масштабирование. Кроме того, мы создаём прикладные AI-продукты на базе LLM. Ищем опытного инженера, которому интересно работать и с платформенной частью, и с продуктовой.

Чем предстоит заниматься:

Инфраструктура и высоконагруженный инференс (Platform Engineering)
Проектирование и поддержка GPU-кластера инференса (Nvidia) для десятков тысяч пользователей: скалирование, балансировка и приоритизация запросов, пользовательские лимиты
Оптимизация производительности: кэширование, батчинг, etc
Надежность и observability: обеспечение SLA и предотвращение регрессий
Оценка и внедрение новых LLM
Продуктовая разработка (LLM Application)
Разработка AI-сервисов: AI Code Assistant (Co-Pilot), AI Chat, AI Code Review
Проектирование пайплайнов автоматизаций: tool/function calling, обработка ошибок, управление контекстом/состоянием
Интеграции: встраивание AI-сервисов в корпоративную среду (API, БД, legacy-системы)
Исследования и прототипирование (R&D)
Проведение экспериментов, создание MVP и выстраивание пути доведения до продакшена
Исследование новых технологий и подходов для улучшения продуктов

Мы ждем от будущего члена команды:

Экспертиза в Python & Backend
Опыт разработки на Python (5+ лет), знание стандартов: typing, асинхронность, паттерны проектирования
Опыт создания высоконагруженных API (FastAPI или аналоги), работа с очередями, воркерами и фоновыми задачами
Архитектура и надежность (Production)
Опыт построения gateway/router, управление ключами, маршрутизация, пользовательские лимиты
Опыт поддержки высоконагруженных сервисов в продакшене: стабильность контрактов, обработка ошибок
Глубокие знания LLM & Inference
Опыт работы с инструментами инференса (vLLM, SGLang, OpenAI API), понимание их внутренней работы
Опыт настройки инференса под highload: latency/throughput, управление GPU-ресурсами
Опыт построения решений с tool/function calling: MCP, guardrails, борьба с галлюцинациями

Будем рады предложить вам:

Конкурентный уровень заработной платы
Гибридный формат работы, возможность полной удалённой работы
Систему премирования за научные достижения, публикацию статей, регистрацию патентов и выступления на конференциях
«Лекторий», в рамках которого приглашенные эксперты и наши специалисты на регулярной основе делятся профессиональным опытом из различных областей науки
Внутреннюю программу поддержки инноваций
Медицинскую страховку, включающую стоматологию, госпитализации, международные путешествия
Льготное страхование членов семьи

Посмотреть контакты работодателя