Минск, проспект Победителей, 7А
Мы ищем инженера, который возглавит развитие и оптимизацию наших распределенных систем автоматизации и аналитики. Основной упор в работе делается на построение отказоустойчивых процессов с использованием Temporal и Apache Airflow. Нам ближе кандидаты с уверенным бэкграундом в Go или Python.
Что предстоит сделать в первую очередь:
Задокументировать текущее решение на Temporal: погрузиться в кодовую базу, разобраться в архитектуре и самостоятельно описать текущие workflow и процессы.
Предложить оптимизацию текущего флоу: на основе проведенного анализа выявить узкие места в текущей логике оркестрации и предложить архитектурные или кодовые улучшения. Эта задача станет главным показателем ваших hard skills на старте.
Чем предстоит заниматься (Обязанности):
Проектировать и развивать отказоустойчивые workflow: проектирование распределенных бизнес-логик (Temporal) и аналитических пайплайнов (Airflow).
Обеспечивать надежность процессов: оркестрация долгоживущих транзакций, обработка отказов, повторные попытки (retries) и управление состоянием систем.
Настраивать и развивать Observability: внедрять сквозное логирование, мониторинг и распределенный трейсинг (distributed tracing) для полного контроля над исполнением workflow.
Интегрировать микросервисы: связывать внутренние и внешние API, базы данных и очереди сообщений в единые автоматизированные цепочки.
Масштабировать инфраструктуру: настраивать, мониторить и описывать требования к масштабированию кластеров Temporal и Airflow в Docker/Kubernetes.
Оптимизировать производительность: профилировать код воркеров, анализировать метрики, оптимизировать DAG (в Airflow) и минимизировать задержки.
Документировать архитектуру и процессы: создавать и поддерживать в актуальном состоянии техническую документацию (схемы архитектуры, описание DAG и workflow, runbooks для восстановления систем после сбоев).
Требования к кандидату (Hard skills):
Глубокий опыт оркестрации: уверенное практическое знание Temporal (Workflows, Activities, Signals, Queries) или Apache Airflow (написание сложных идемпотентных DAG, Custom Operators).
Языки программирования: уверенный уровень владения Go или Python.
Опыт в Observability: практические навыки работы с инструментами мониторинга и трейсинга (Prometheus, Grafana, Jaeger, OpenTelemetry), умение настраивать алерты и собирать кастомные метрики производительности workflow.
Понимание архитектуры: опыт проектирования распределенных систем, работы с очередями сообщений (Kafka, RabbitMQ) и паттернами отказоустойчивости.
Инфраструктурный стек: опыт работы с Docker, Kubernetes и CI/CD пайплайнами.
Работа с данными: уверенное знание SQL, опыт работы с реляционными СУБД (PostgreSQL, MySQL) под высокой нагрузкой.
Будет плюсом:
Опыт миграции процессов с других оркестраторов (например, Camunda, Celery) на Temporal.
Настройка продвинутого аудита и логирования (audit logs) для систем с жесткими требованиями к безопасности.
Понимание концепций Data Engineering (Data Lake, DWH) и инструментов работы с данными (dbt, Spark).
Кейстон девелопмент
Москва
Не указана