Требования — обязательные:
- DevOps / Infra / MLOps middle-уровня;
- Production serving или эксплуатация ML/AI-сервисов под нагрузкой;
- Docker, Linux, networking basics;
- Monitoring / observability: Prometheus / Grafana / logs / alerts или аналоги;
- Очереди / оркестрация: Redis / RabbitMQ / Celery или аналоги;
- GPU cloud: RunPod / Vast / Lambda / AWS / GCP GPU — или готовность быстро разобраться;
- Python на рабочем уровне;
- Cost ownership: GPU utilization, idle resources, spend anomalies, optimization proposals.
Требования — nice-to-have:
- По инфре: ComfyUI в проде, diffusion / image-video pipelines, GPU autoscaling, spot / preemptible, inference optimization (TensorRT и т.п.), Kubernetes / Nomad, model versioning, FinOps-дашборды;
- По agentic / gen-AI: serving агентных систем, agent observability (Langfuse / LangSmith), cost-контроль агентных лупов, MCP, incident response под агентные сбои.
Обязанности:
- Эксплуатировать serving-инфру: деплой, обновления, надёжность;
- Cost ownership: utilization, idle, spend-аномалии, дашборды, регулярный cost-review, рекомендации по spot / autoscaling / rightsizing;
- Доводить инфра-решения до production (в т.ч. через AI-assisted development и шаблоны);
- Держать мониторинг, алертинг, observability; управлять очередями / оркестрацией нагрузки;
- Снимать узкие места; reliability ownership.
Условия:
- Заработная плата: от 2.500$;
- Удаленная работа;
- Гибкий график, комфортный баланс работы и личной жизни;
- Работа над уникальным проектом.