Senior System Architect (Салют для Бизнеса)

Описание вакансии

Мы - команда ООО "Салют для бизнеса", дочерняя организация Сбера, занимаем лидирующие позиции в сфере коммерциализации технологии GenAI с продуктом GigaChat. Мы предлагаем полный цикл решений: LLM-модель GigaChat для локальной и облачной инсталляции, инфраструктуру для GenAI, платформу для разработки агентных систем, готовые GenAI-решения для быстрого старта в типовых задачах, реализацию уникальных клиентских кейсов, консалтинг по GenAI-трансформации. В своей работе мы помогаем нашим партнерам перейти от экспериментов с технологией к промышленному масштабированию, обеспечивая безопасность, адаптивность и экономическую выгоду

Обязанности:

Разработка детальных архитектурных решений (High-Level & Low-Level Design) для LLM-приложений и инфраструктуры, учитывая требования производительности (GPU, latency, throughput), безопасности и стоимости
Выбор оптимальных моделей, фреймворков инференса (vLLM, TGI, TensorRT-LLM и т.д.), стратегий развертывания (public cloud, private cloud, hybrid, on-prem GPU) и инструментов управления (Kubernetes, MLOps платформы)
Техническое взаимодействие с заказчиками: глубокий анализ требований, архитектурные сессии, презентации и демонстрации решений
Настройка и оптимизация GPU-инфраструктуры (драйверы, CUDA, оркестрация GPU в Kubernetes - K8s Device Plugins, MIG/GPU Sharing)
Разработка ключевых компонентов инфраструктуры с использованием IaC (Terraform, Ansible). Контроль качества кода команды
Интеграция LLM с существующими системами заказчика (API, базы данных, системы аутентификации, корпоративные хранилища данных)
Проектирование и внедрение стратегий мониторинга и логирования для LLM-сервисов (метрики GPU, latency, ошибок моделей, трассировка запросов)
Оптимизация производительности инференса LLM (batching, quantization, distillation, использование специфичных оптимизаций фреймворков)
Проектирование решений для обеспечения высокой доступности (HA) и аварийного восстановления (DR) LLM-сервисов

Требования:

Практический опыт работы с LLM: понимание архитектур моделей (Transformer), практический опыт использования API (OpenAI, Anthropic, open-source) и/или развертывания open-source LLM (Llama 2/3, Mistral, Mixtral, Qwen и т.д.)
Понимание принципов и фрэймворков для построения агентных систем (n8n), интеграции агентов с «реальным миром» (MCP) и между собой (A2A)
Понимание принципов построения дополненных знаний в моделях (RAG). Опыт работы с векторными базами знаний (Elastic, MapReduce, OpenSearch)
Опыт работы с облачными платформами (AWS, GCP, Azure, OCI, Yandex Cloud) и их сервисами для AI/ML
Отличное знание контейнеризации (Docker) и оркестрации (Kubernetes), включая развертывание и управление GPU-нагрузками в K8s
Продвинутые навыки Infrastructure as Code (IaC): Terraform , Ansible
Глубокие знания Linux Навыки программирования/скриптования для автоматизации (Python, Bash)

Условия: