Поддержка и развитие инфраструктуры, состоящей из кластеров k8s, kafka, redis, opensearch, развернутых на виртуальных машинах, в инфраструктуре частного облака и немного на bare-metal;
Обеспечение высокой доступности наших сервисов, в т.ч. устранение сбоев и расследование их причин;
Взаимодействие с командами frontend и backend разработки в части разворачивания сервисов и решения проблем;
Развитие мониторинга, алертинга, повышение наблюдаемости (observability) системы;
Создавать и развивать скрипты автоматизации;
Поддержка в актуальном состоянии и создание новой тех. документации.
Что мы ждём:
Уверенное владение Linux (RHEL-based), в т.ч. неплохое знание bash;
Понимание базовых принципов работы компьютерных сетей;
Понимание устройства кластера Kubernetes, опыт администрирования кластера Kubernetes;
Понимание принципов работы контейнеризации, способность создать оптимальный Dockerfile;
Опыт создания Helm-чартов;
Опыт работы с Prometheus/Victoria, grafana, ELK;
Опыт работы с инструментами CI/CD (Teamcity, Jenkins, Gitlab, Argo) и Git;
Опыт работы с Java-приложениями, знакомство с принципами работы JVM;
Хорошее знание Nginx или другого web-сервера.
Плюсом будет:
Опыт работы с Istio или другой Service Mesh;
Опыт построения высокодоступной, отказоустойчивой инфраструктуры;
Опыт разработки и тестирования disaster recovery plan;