MLOps-инженер (Senior), банковский проект

Описание вакансии

Мы ищем инженера, который станет «архитектором надёжности» для банковской AI-инфраструктуры. Вы будете отвечать за то, чтобы LLM-сервисы, агенты и ML-модели работали стабильно, масштабируемо и экономически эффективно — от обучения до продакшена.

Это не классический DevOps. Это роль на стыке инфраструктуры, MLOps и Big Data, где нужно понимать, как работает инференс, почему важен batching в vLLM и как мониторить дрейф данных в реальном времени.

Чем предстоит заниматься:

Администрировать инфраструктуру AI-сервисов: поддержка и масштабирование Kubernetes-кластеров с GPU-нодами, развертывание и оптимизация сервисов инференса (vLLM, LightLLM).
Развивать CI/CD: проектировать и улучшать пайплайны в GitLab CI/CD, ускорение сборок.
Автоматизировать рутину: замена ручных операций на автоматизированные сценарии, разработка ботов и агентов для поддержки команды.
MLOps: автоматизировать жизненный цикл ML-моделей — от обучения и тестирования до деплоя и мониторинга дрейфа данных.
Observability: настраивать комплексное логирование, мониторинг и алертинг (Prometheus, Grafana, OpenSearch) для всех компонентов системы.
Поддерживать инфраструктуру: администрирование серверов команды, обеспечение отказоустойчивости и безопасности.
Интегрировать агентские системы: участие в подготовке данных, разработке, интеграции и деплое автономных AI-агентов и LLM-приложений.
Искать и внедрять новые решения: деплой и тестирование opensource-инструментов для расширения возможностей AI-агентов и сервисов.

Для нас важно:

Опыт коммерческого администрирования Linux и управления производственными кластерами Kubernetes.
Уверенное владение Helm (написание чартов, управление релизами).
Продвинутый опыт построения и поддержки пайплайнов CI/CD (GitLab CI/CD или аналоги).
Понимание принципов безопасности: опыт работы с Keycloak/OAuth2, управление секретами через Vault.
Глубокие знания в области Observability: стек Prometheus/Grafana, OpenSearch.
Навыки написания скриптов для автоматизации (Python, Bash).
Продвинутый уровень использования AI-инструментов разработки: Claude Code, Open Code, Qwen Code или аналогов (rules, skills, agents, MCP).
Представление о подходах к построению AI-агентов, tool calling, RAG, function calling.
Опыт интеграции с LLM API или inference-серверами.
Понимание особенностей LLM-инференса: latency, throughput, batching, context length, token usage.
Понимание принципов подготовки данных для AI/ML/LLM-сценариев: RAG, embeddings, evaluation datasets, telemetry.
Понимание принципов построения ETL/ELT-процессов.
Опыт работы с большими объемами данных и оптимизации их обработки.
Базовый или практический опыт работы с экосистемой Hadoop.
Понимание принципов хранения данных в HDFS или S3-совместимых объектных хранилищах.
Понимание форматов хранения данных: Parquet, ORC, Avro, Iceberg.
Базовый или практический опыт работы с MPP-движками.

Будет плюсом:

Опыт поддержки и администрирования Big Data-сервисов: Trino, Airflow, ClickHouse, Kafka, Hadoop, Redis.
Опыт разработки внутреннего тулинга и утилит на Python.
Опыт оптимизации работы GPU в Kubernetes (device plugins, мониторинг VRAM, планирование задач).
Опыт эксплуатации LLM-инференса в production.
Опыт построения RAG-систем.
Опыт работы с базами данных MSSQL, PostgreSQL, ClickHouse.
Опыт работы с LangChain, LangGraph или аналогичными фреймворками.
Опыт оптимизации GPU-инференса и стоимости LLM-сервисов.
Опыт работы в enterprise-среде с повышенными требованиями к безопасности.

Главный принцип SkillStaff - Выбирай!

РАЗНООБРАЗИЕ ПРОЕКТОВ. Выбирай из сотен компаний и проектов то, что интересно и полезно для твоего роста. SkillStaff помогает реализовывать ежегодно порядка 500 различных ИТ-проектов для крупного бизнеса.
КОМФОРТ. SkillStaff — аккредитованная IT-компания, белая зарплата и удобный график работы. Создавай идеальные условия для своей работы: удаленная работа или возможность работать как в офисе клиента, так и в комфортном офисе SkillStaff в центре Москвы на Воздвиженке.
РАЗВИТИЕ. Выбирай сам путь, по которому ты хочешь развиваться. Используй возможность обмена опытом и получение знаний через участие в разных проектах, совместную работу с высококвалифицированными коллегами.
КУЛЬТУРА. Нашу культуру создают сами сотрудники – мы их слышим и помогаем развиваться, чтобы #вместе переходить на новый уровень!