Наша команда обеспечивает доступность нейросетей для тысяч пользователей одновременно. Мы сопровождаем и улучшаем production-платформу для хостинга LLM: ее надежность, производительность и масштабирование. Кроме того, мы создаём прикладные AI-продукты на базе LLM. Ищем опытного инженера, которому интересно работать и с платформенной частью, и с продуктовой.
Чем предстоит заниматься:
- Инфраструктура и высоконагруженный инференс (Platform Engineering)
- Проектирование и поддержка GPU-кластера инференса (Nvidia) для десятков тысяч пользователей: скалирование, балансировка и приоритизация запросов, пользовательские лимиты
- Оптимизация производительности: кэширование, батчинг, etc
- Надежность и observability: обеспечение SLA и предотвращение регрессий
- Оценка и внедрение новых LLM
- Продуктовая разработка (LLM Application)
- Разработка AI-сервисов: AI Code Assistant (Co-Pilot), AI Chat, AI Code Review
- Проектирование пайплайнов автоматизаций: tool/function calling, обработка ошибок, управление контекстом/состоянием
- Интеграции: встраивание AI-сервисов в корпоративную среду (API, БД, legacy-системы)
- Исследования и прототипирование (R&D)
- Проведение экспериментов, создание MVP и выстраивание пути доведения до продакшена
- Исследование новых технологий и подходов для улучшения продуктов
Мы ждем от будущего члена команды:
- Экспертиза в Python & Backend
- Опыт разработки на Python (5+ лет), знание стандартов: typing, асинхронность, паттерны проектирования
- Опыт создания высоконагруженных API (FastAPI или аналоги), работа с очередями, воркерами и фоновыми задачами
- Архитектура и надежность (Production)
- Опыт построения gateway/router, управление ключами, маршрутизация, пользовательские лимиты
- Опыт поддержки высоконагруженных сервисов в продакшене: стабильность контрактов, обработка ошибок
- Глубокие знания LLM & Inference
- Опыт работы с инструментами инференса (vLLM, SGLang, OpenAI API), понимание их внутренней работы
- Опыт настройки инференса под highload: latency/throughput, управление GPU-ресурсами
- Опыт построения решений с tool/function calling: MCP, guardrails, борьба с галлюцинациями
Будем рады предложить вам:
- Конкурентный уровень заработной платы
- Гибридный формат работы, возможность полной удалённой работы
- Систему премирования за научные достижения, публикацию статей, регистрацию патентов и выступления на конференциях
- «Лекторий», в рамках которого приглашенные эксперты и наши специалисты на регулярной основе делятся профессиональным опытом из различных областей науки
- Внутреннюю программу поддержки инноваций
- Медицинскую страховку, включающую стоматологию, госпитализации, международные путешествия
- Льготное страхование членов семьи