Москва, Филёвская линия, метро Деловой центр
Метро: Деловой центрХай! Мы B2B-стартап для анализа открытых и закрытых данных сотрудников с помощью AI-моделей. Клиенты: HR, топ-менеджеры. На первой версии учитываем только открытые данные (гос. реестры, судебная практика) и данные социальных сетей (TG и Instagram). Проект имеет стабильное финансирование и клиентов. Команда активно расширяется.
Сегодня инфраструктура на ранней стадии: нужно перейти от ручного и монолитного окружения к воспроизводимой, наблюдаемой и безопасной среде. Фокус — защита и надёжность хранения данных, контроль доступов и стабильная работа парсеров.
У нас небольшая команда, поэтому нужен человек, который умеет самостоятельно приоритезировать задачи, документировать решения и передавать знания команде. Важно, чтобы ты был готов обсуждать свои и чужие решения на предмет соответствия нашей стратегии.
Что делать:
Инфраструктура и сеть. Настройка инфраструктуры под разные окружения, хранилища ai и служебные сервисы. Настроить внутреннюю сеть, фаерволы, VPN и закрыть служебные интерфейсы от внешнего интернета. Сделать конфигурацию воспроизводимой через Ansible, Terraform или аналогичные инструменты.
Мониторинг и наблюдаемость. Поднять стек метрик, логов, дашбордов и предупреждений. Следить за серверной частью, БД, очередями, парсерами, внешними API, AI-запросами, дисками, памятью, трафиком и ошибками доступа.
Безопасность и доступы. Внедрить централизованную аутентификацию для внутренних сервисов и продукта: Keycloak, Authelia, oauth2-proxy или аналоги. Закрыть админские панели за VPN и единым входом, разграничить роли, включить двухфакторную проверку там, где это возможно. Навести порядок с секретами, токенами и ключами внешних сервисов; убрать их из кода, репозиториев и незащищённых файлов. Настроить журналы административных действий и доступов к чувствительным данным.
Бэкапы и надёжность. Настроить регулярное резервное копирование БД, конфигураций, файловых хранилищ и критичных сервисов. Прописать и протестировать процедуру восстановления. Постепенно двигаться к zero-downtime при релизах.
Сборка, выкладка и автоматизация. Контейнеризировать оставшиеся сервисы, привести Dockerfile и docker-compose к боевому состоянию, настроить понятные цепочки сборки, тестирования, выкладки и отката. Сделать доставку кода предсказуемой
Что ожидаем:
Уверенная работа с Linux и понимание сетей: TCP/IP, DNS, маршрутизация, фаерволы, закрытые сети.
Опыт эксплуатации боевого окружения и аккуратного разделения монолитной инфраструктуры на управляемые сервисы и контуры.
Опыт с Docker, docker-compose, написанием Dockerfile и подготовкой сервисов к боевой эксплуатации.
Практический опыт с Ansible, Terraform или другими инструментами воспроизводимой настройки инфраструктуры.
Опыт с реляционными БД, желательно PostgreSQL: развёртывание, оптимизация, резервное копирование, восстановление, базовая диагностика.
Запуск мониторинга с нуля: Prometheus, Grafana, Loki, Alertmanager или аналоги; понимание, какие метрики важны для веб-сервисов, фоновых задач и БД.
Настройка централизованного входа и разграничения прав: OAuth2/OIDC, Keycloak, Authelia, oauth2-proxy или аналоги.
Практика организации резервных копий и обязательной проверки восстановления, а не только создания копий.
Опыт написания CI/CD процессов; понимание пути от изменения кода до боевого окружения.
Будет плюсом:
Опыт внедрения VPN-решений: WireGuard, Tailscale или аналоги.
Знакомство с HashiCorp Vault, SOPS или другими инструментами управления секретами.
Опыт развертывания: Redis, RabbitMQ, Kafka и Clickhouse.
Опыт с AI/ML-инфраструктурой, Big Data и сервисами обработки персональных данных.
Понимание как достичь zero-downtime, отказоустойчивость и готовить инфраструктуры под требованиям корпоративных клиентов.
Понимание как достичь zero-downtime, отказоустойчивость и готовить инфраструктуры под требованиям корпоративных клиентов.
В отклике напиши свой tg\max для связи. Помимо этого, если есть ссылка на git, публикации на habr, любые другие атрибуты интереса к сфере - тоже отправляй, нам интересно
Условия: