Управление эксплуатации программного обеспечения ищет инженеров по работе с высокопроизводительными системами на базе GPU Nvidia.
Мы обеспечиваем работу тысяч серверов и инфраструктурного ПО для корпоративных и клиентских сервисов компании. Мы верим в концепцию Infrastructure-as-a-Code, а также в то, что инфраструктура имеет огромное значение в успехе продукта.
Обязанности:
- участие в стройке, запуске и поддержке высокопроизводительных систем;
- организация качественного мониторинга и алертинга инфраструктуры и приложения;
- активное участие в процессах инцидент и проблем менеджмента (включая участие в устранении аварий, стабилизации систем после дизастера и выполнения действий, запланированных в рамках постмортема);
- строгая оценка систем на соответствие Стандарту по архитектурным решениям для внутренних АС и Требованиям к эксплуатации ПО;
- контроль устранения недоработок, в том числе внесение изменений в системах, находящихся в промышленной эксплуатации.
Требования:
- опыт работы с высокопроизводительным железом от NVidia;
- знание архитектуры суперкомпьютеров и опыт эксплуатации суперкомпьютеров;
- понимание принципов работы машинного обучения (machine learning);
- опыт работы с высокоскоростными сетями InfiniBand или RoCE;
- понимание устройства ядра Linux, его модулей, а также процессов управления потоками, задачами, памятью;
- знакомство с системами виртуализации - VMware ESXi, KVM, Xen;
- глубокие знания контейнеризации (Docker) и опыт работы с k8s;
- практический опыт работы с Git в связке с любым CI/CD;
- знания и умение использовать Terraform и Ansible;
- Python на уровне Junior+;
- базовые знания в области сетевых технологий.