О проекте:
Мы запускаем крупный и амбициозный проект — строительство майнинг-фермы промышленного масштаба. Наша цель — построить не просто ферму, а высокотехнологичный, полностью автоматизированный и отказоустойчивый дата-центр. Ключевую роль в достижении этой цели играет создание мощной системы мониторинга и управления.
Обязанности:
- Разработка архитектуры: Спроектировать, внедрить и поддерживать высоконагруженную систему мониторинга и управления всего оборудования и инфраструктуры (ASIC’и, системы охлаждения, электроснабжение, сеть);
- Технологический стек: Выстроить и настроить единую платформу на базе Prometheus/Grafana, Zabbix, Alertmanager;
- Автоматизация: Разработать систему автоматического сбора метрик, обнаружения аномалий (падение хешрейта, перегрев, сетевые проблемы) и оповещения ответственных лиц;
- Управление командой: В дальнейшем — сформировать и руководить командой инженеров для поддержки и развития системы;
- Аналитика: Создавать дашборды для анализа эффективности работы фермы в реальном времени и формирования отчетности для руководства;
- Интеграция: Обеспечить интеграцию системы мониторинга с другими внутренними системами (например: 1С).
Требования: - Опыт разработки и внедрения систем мониторинга с нуля для крупных инфраструктур (500+ узлов);
- Глубокое знание и наличие практического опыта в работе с Prometheus, Grafana, Zabbix, Alertmanager;
- Опыт написания скриптов для автоматизации (Bash, Python, Go);
- Понимание принципа сетевых технологий (TCP/IP, SNMP) и работы интернета;
- Наличие навыков администрирования Linux-систем;
- Наличие опыта постановки задач команде и управления проектами (будет плюсом);
- Понимание специфики майнинг-оборудования (ASIC) или готовность быстро в нее погрузиться (это ключевое преимущество!).
Условия: