Проводить техническую оценку серверов , barebone-платформ, самосборных конфигураций, OCP серверов, GPU-серверов и решений высокой плотности.
Формировать базовые требования к разработке ODM решений и кастомных доработок OpenBMC.
Оценивать влияние платформы на ЦОД: питание, PDU, вводы A/B, кВт на стойку, тепловую нагрузку, охлаждение, воздушные потоки, аварийные режимы, плотность размещения и возможность перехода к фрикулингу.
Формировать подход к тепловым тестам: профили нагрузки, входящая температура, температуры компонентов, троттлинг, поведение вентиляторов, ограничение мощности, стабильность под длительной нагрузкой.
Учитывать реальные сценарии использования серверов внутренними командами: виртуализация, k8s, DB/DBaaS, Search, Storage/Ceph, DWH, GPU/ML и другие нагрузки.
Вместе с внутренними заказчиками переводить их требования в требования к платформе, конфигурации и тестам.
Формировать список совместимых и разрешённых компонентов, правила замены компонентов, допустимые версии прошивок и ограничения по конфигурациям.
Готовить технические заключения по результатам тестов: допустить, допустить с ограничениями, отправить на доработку, повторно протестировать или отклонить.
Практический опыт диагностики, тестирования, эксплуатации, проверки или выбора серверных платформ до закупки.
Опыт работы с BMC и удалённым управлением сервером: Redfish, IPMI, SNMP, SSH/CLI, Web UI, KVM.
Понимание Redfish, настройки BIOS/BMC, пользователей, ролей, сенсоров, логов и обновлений.
Навыки постановки ТЗ для кастомных доработок BMC.
Понимание BIOS/UEFI: профили производительности, энергосбережение CPU, SR-IOV, Secure Boot, PXE, порядок загрузки, отключение USB, восстановление после потери питания, настройки памяти и виртуализации.
Понимание жизненного цикла прошивок: BIOS, BMC, CPLD, RAID, сетевые карты, HBA, SSD/HDD, GPU, блоки питания. Важно понимать совместимость версий, риски обновлений и восстановление после неуспешного обновления.
Опыт разработки, аудита или развития методик тестирования серверного оборудования: цель теста, стенд, условия, методика, критерии успешности, протокол, вывод, решение.
Понимание инженерной инфраструктуры ЦОДа на уровне серверной платформы: питание стоек, PDU, вводы A/B, резервирование, кВт на стойку, тепловая нагрузка, горячий и холодный коридор, воздушные потоки, температурные ограничения, аварийные режимы.
Понимание тепловых режимов серверов: входящая температура, температуры компонентов, троттлинг, кривые работы вентиляторов, ограничение мощности, плотность размещения, стабильность под длительной нагрузкой.