Мы - команда ООО "Салют для бизнеса", дочерняя организация Сбера, занимаем лидирующие позиции в сфере коммерциализации технологии GenAI с продуктом GigaChat. Мы предлагаем полный цикл решений: LLM-модель GigaChat для локальной и облачной инсталляции, инфраструктуру для GenAI, платформу для разработки агентных систем, готовые GenAI-решения для быстрого старта в типовых задачах, реализацию уникальных клиентских кейсов, консалтинг по GenAI-трансформации. В своей работе мы помогаем нашим партнерам перейти от экспериментов с технологией к промышленному масштабированию, обеспечивая безопасность, адаптивность и экономическую выгоду
Обязанности:
- Разработка детальных архитектурных решений (High-Level & Low-Level Design) для LLM-приложений и инфраструктуры, учитывая требования производительности (GPU, latency, throughput), безопасности и стоимости
- Выбор оптимальных моделей, фреймворков инференса (vLLM, TGI, TensorRT-LLM и т.д.), стратегий развертывания (public cloud, private cloud, hybrid, on-prem GPU) и инструментов управления (Kubernetes, MLOps платформы)
- Техническое взаимодействие с заказчиками: глубокий анализ требований, архитектурные сессии, презентации и демонстрации решений
- Настройка и оптимизация GPU-инфраструктуры (драйверы, CUDA, оркестрация GPU в Kubernetes - K8s Device Plugins, MIG/GPU Sharing)
- Разработка ключевых компонентов инфраструктуры с использованием IaC (Terraform, Ansible). Контроль качества кода команды
- Интеграция LLM с существующими системами заказчика (API, базы данных, системы аутентификации, корпоративные хранилища данных)
- Проектирование и внедрение стратегий мониторинга и логирования для LLM-сервисов (метрики GPU, latency, ошибок моделей, трассировка запросов)
- Оптимизация производительности инференса LLM (batching, quantization, distillation, использование специфичных оптимизаций фреймворков)
- Проектирование решений для обеспечения высокой доступности (HA) и аварийного восстановления (DR) LLM-сервисов
Требования:
- Практический опыт работы с LLM: понимание архитектур моделей (Transformer), практический опыт использования API (OpenAI, Anthropic, open-source) и/или развертывания open-source LLM (Llama 2/3, Mistral, Mixtral, Qwen и т.д.)
- Понимание принципов и фрэймворков для построения агентных систем (n8n), интеграции агентов с «реальным миром» (MCP) и между собой (A2A)
- Понимание принципов построения дополненных знаний в моделях (RAG). Опыт работы с векторными базами знаний (Elastic, MapReduce, OpenSearch)
- Опыт работы с облачными платформами (AWS, GCP, Azure, OCI, Yandex Cloud) и их сервисами для AI/ML
- Отличное знание контейнеризации (Docker) и оркестрации (Kubernetes), включая развертывание и управление GPU-нагрузками в K8s
- Продвинутые навыки Infrastructure as Code (IaC): Terraform , Ansible
- Глубокие знания Linux Навыки программирования/скриптования для автоматизации (Python, Bash)
Условия:
- Достойная заработная плата + годовой бонус
- Сильная команда
- ДМС, с первого рабочего дня
- Работа в аккредитованной IT компании
- Льготная ипотека от Сбера
- Гибридный график работы
- Локация: Москва, м. Павелецкая/Кутузовская