Описание проекта организации:
Наш проект направлен на создание комплексной экосистемы для управления жизненным циклом машинного обучения и оптимизации инфраструктурных решений. Мы фокусируемся на интеграции современных ML-платформ в промышленные процессы, разработке инструментов автоматизации, а также обеспечении безопасности и масштабируемости ML/Ops-практик.
Основные направления включают:
- Исследование и интеграция ML-платформ: Разработка методов эффективного использования технологий для оркестрации ML-воркфлоу, создание Python-библиотек для расширения функциональности и подготовка оптимизированных контейнерных образов.
- Экспертиза и документирование: Формирование открытой базы знаний по архитектуре распределенных ML-систем, лучшим практикам развертывания и методам устранения уязвимостей в инфраструктуре.
- ML-решения для инфраструктуры: Проектирование систем прогнозирования нагрузки, управления ресурсами и других AI-driven решений для повышения эффективности IT-ландшафтов.
- Поддержка жизненного цикла моделей: Автоматизация процессов подготовки моделей к эксплуатации — от квантования и конфигурации до адаптации под производственные задачи.
- Безопасность и стандартизация: Внедрение механизмов авторизации, управления секретами и аудита для корпоративных сред, включая анализ рисков инфраструктурных компонентов.
- Стратегическое развитие: Публичная дорожная карта технологической эволюции платформ, подкрепленная образовательными инициативами — вебинарами, воркшопами и кейс-стади.
Проект объединяет исследовательские подходы с промышленной реализацией, предлагая клиентам как готовые решения, так и кастомизированную экспертизу. Особое внимание уделяется совместимости с open-source экосистемой, где опыт работы с такими платформами, как Kubeflow , считается значительным преимуществом. Наша цель — сократить разрыв между экспериментальными ML-разработками и их внедрением в высоконагруженные системы, обеспечивая прозрачность, воспроизводимость и безопасность на всех этапах.
Стек технологий:
Kubernetes, оркестраторы Rancher, OpenLens или хорошее знание Kubectl, Docker, *nix (в т.ч. bash), Python, Git (или подобные системы версионирования), Grafana, Prometheus
LLM, SGLang (и др. фреймворки для языковых моделей), методы оптимизации работы моделей (ONNX, TensorRT и т.д.), HuggingFace.
Чем предстоит заниматься:
1. Управление жизненным циклом ML-моделей:
- Настройка и оптимизация инфраструктуры для запуска и масштабирования моделей в рабочих средах;
- Обеспечение стабильной работы моделей, включая автоматическое восстановление при сбоях.
2. Автоматизация процессов обучения и развертывания:
- Разработка CI/CD-пайплайнов для обучения, тестирования и внедрения моделей;
- Внедрение систем мониторинга (Prometheus, Grafana) и управления версиями моделей.
3. Повышение эффективности моделей:
- Снижение затрат на инференс через внедрение методов квантования, дистилляции и аппаратно-ориентированной оптимизации (ONNX, TensorRT);
- Анализ производительности моделей для выбора оптимальных фреймворков и форматов развертывания..
4. Мониторинг и анализ:
- Настройка отслеживания качества предсказаний, использования ресурсов и отклонений в данных;
- Создание инструментов для быстрого выявления и устранения проблем на основе метрик.
5. Работа в команде:
- Совместная работа с Data Science-командами над архитектурой решений, включая LLM-проекты и RAG-системы;
- Участие в планировании и внедрении ИИ-продуктов от идеи до реализации.
6. Инновации в MLOps-практиках:
- Исследование современных инструментов для автоматизации ML-процессов;
- Адаптация экспериментальных методов (например, оптимизация нейросетей) для промышленного использования.
7. Документирование и обучение:
- Составление инструкций по работе с инфраструктурой и лучшим практикам (опыт с Kubeflow будет преимуществом).
- Проведение внутренних семинаров по MLOps-стандартам и инструментам автоматизации машинного обучения.
Основные цели:
- Создание надежных и воспроизводимых процессов для внедрения моделей;
- Поддержка работы в облачных и локальных средах;
- Сокращение времени перевода моделей из разработки в эксплуатацию;
- Постоянное улучшение инфраструктуры на основе анализа результатов.
Что мы ждем:
Релевантный опыт от 3 лет
Почему у нас круто:
- Официальное оформление с первого дня – наша IT-компания аккредитована;
- Развитие профессиональной экспертизы: ты сможешь обучаться и посещать конференции и митапы за счёт Банка;
- Классная команда – мы за радость общения и дружбу в коллективе;
- Комфортный офис – у нас уютные рабочие пространства, комнаты отдыха с настольным теннисом, кикером, плойкой и другими плюшками;
- Коворкинги в Сочи и на Алтае – туда можно отправиться поработать и отдохнуть в режиме 4/3 за счёт Банка;
- Более 50 социальных программ – ДМС со стоматологией и страхованием от несчастных случаев и болезней, изучение английского, софинансирование летнего, зимнего и тематического отпуска, уникальные условия по продуктам и услугам Банка;
- Забота о детях: мы проводим праздники и экскурсии для детей наших сотрудников, софинансируем частный детский сад, отдых в лагере и подготовку к экзаменам;
- Много спорта: у нас есть клубы и секции, можно заниматься любым спортом за счёт Банка и участвовать в корпоративных турнирах и чемпионатах. Также мы софинансируем коллегам абонементы в фитнес-клубы;
- Вовлеченность, комфорт и свобода. У нас минимум бюрократии, нет дресс-кода, гибкое начало и завершение рабочего дня;
- Самая яркая корпоративная культура – летние IT-фесты, путешествия по России и за её пределами!