Мы ищем инженера, который станет «архитектором надёжности» для банковской AI-инфраструктуры. Вы будете отвечать за то, чтобы LLM-сервисы, агенты и ML-модели работали стабильно, масштабируемо и экономически эффективно — от обучения до продакшена.
Это не классический DevOps. Это роль на стыке инфраструктуры, MLOps и Big Data, где нужно понимать, как работает инференс, почему важен batching в vLLM и как мониторить дрейф данных в реальном времени.
Чем предстоит заниматься:
- Администрировать инфраструктуру AI-сервисов: поддержка и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM).
- Развивать CI/CD: проектировать и улучшать пайплайны в GitLab CI/CD, ускорение сборок.
- Автоматизировать рутину: замена ручных операций на автоматизированные сценарии, разработка ботов и агентов для поддержки команды.
- MLOps: автоматизировать жизненный цикл ML-моделей — от обучения и тестирования до деплоя и мониторинга дрейфа данных.
- Observability: настраивать комплексное логирование, мониторинг и алертинг (Prometheus, Grafana, OpenSearch) для всех компонентов системы.
- Поддерживать инфраструктуру: администрирование серверов команды, обеспечение отказоустойчивости и безопасности.
- Интегрировать агентские системы: участие в подготовке данных, разработке, интеграции и деплое автономных AI-агентов и LLM-приложений.
- Искать и внедрять новые решения: деплой и тестирование opensource-инструментов для расширения возможностей AI-агентов и сервисов.
Для нас важно:
- Опыт коммерческого администрирования Linux и управления производственными кластерами Kubernetes.
- Уверенное владение Helm (написание чартов, управление релизами).
- Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги).
- Понимание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault.
- Глубокие знания в области Observability: стек Prometheus/Grafana, OpenSearch.
- Навыки написания скриптов для автоматизации (Python, Bash).
- Продвинутый уровень использования AI-инструментов разработки: Claude Code, Open Code, Qwen Code или аналогов (rules, skills, agents, MCP).
- Представление о подходах к построению AI-агентов, tool calling, RAG, function calling.
- Опыт интеграции с LLM API или inference-серверами.
- Понимание особенностей LLM-инференса: latency, throughput, batching, context length, token usage.
- Понимание принципов подготовки данных для AI/ML/LLM-сценариев: RAG, embeddings, evaluation datasets, telemetry.
- Понимание принципов построения ETL/ELT-процессов.
- Опыт работы с большими объемами данных и оптимизации их обработки.
- Базовый или практический опыт работы с экосистемой Hadoop.
- Понимание принципов хранения данных в HDFS или S3-совместимых объектных хранилищах.
- Понимание форматов хранения данных: Parquet, ORC, Avro, Iceberg.
- Базовый или практический опыт работы с MPP-движками.
Будет плюсом:
- Опыт поддержки и администрирования Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis.
- Опыт разработки внутреннего тулинга и утилит на Python.
- Опыт оптимизации работы GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач).
- Опыт эксплуатации LLM-инференса в production.
- Опыт построения RAG-систем.
- Опыт работы с базами данных MSSQL, PostgreSQL, ClickHouse.
- Опыт работы с LangChain, LangGraph или аналогичными фреймворками.
- Опыт оптимизации GPU-инференса и стоимости LLM-сервисов.
- Опыт работы в enterprise-среде с повышенными требованиями к безопасности.
Главный принцип SkillStaff - Выбирай!
- РАЗНООБРАЗИЕ ПРОЕКТОВ. Выбирай из сотен компаний и проектов то, что интересно и полезно для твоего роста. SkillStaff помогает реализовывать ежегодно порядка 500 различных ИТ-проектов для крупного бизнеса.
- КОМФОРТ. SkillStaff — аккредитованная IT-компания, белая зарплата и удобный график работы. Создавай идеальные условия для своей работы: удаленная работа или возможность работать как в офисе клиента, так и в комфортном офисе SkillStaff в центре Москвы на Воздвиженке.
- РАЗВИТИЕ. Выбирай сам путь, по которому ты хочешь развиваться. Используй возможность обмена опытом и получение знаний через участие в разных проектах, совместную работу с высококвалифицированными коллегами.
- КУЛЬТУРА. Нашу культуру создают сами сотрудники – мы их слышим и помогаем развиваться, чтобы #вместе переходить на новый уровень!