Яндекс — одна из немногих компаний в мире, оперирующих экcабайтами данных, которые нужно уметь эффективно хранить, обрабатывать и передавать между различными системами.
Для решения этих задач мы создали и развиваем распределённую платформу хранения и обработки данных YTsaurus.
YTsaurus в том числе управляет суперкомпьютерами Яндекса, на которых ML-инженеры решают задачи машинного обучения. Недавно мы начали новый проект, чтобы упростить жизнь коллег. Пользователями нового сервиса станет большинство ML-разработчиков Яндекса — сотни команд, которые обучают модели для Алисы, Нейро, Шедеврума.
Ключевые компоненты нового сервиса:
Какие задачи вас ждут
Взаимодействие с пользователями
Вам предстоит много общаться с внутренними и внешними пользователями, участвовать в формировании лучших практик применения ML-инфраструктуры (например, следить за эффективным использованием ресурсов GPU). Кроме того, предстоит собирать и анализировать потребности ML-инженеров и доносить предложения об улучшениях по всему стеку.
Технические вызовы
Вам предстоит разобраться в том, как устроен процесс разработки ML-моделей в Яндексе, и вести внутренние инфраструктурные проекты, а также участвовать в интеграционных проектах вместе с несколькими командами разработки, эксплуатации и тестирования.
Выстраивание рабочих процессов
Вам предстоит сотрудничать с разработчиками других инфраструктурных сервисов, анализировать процессы, находить проблемные места, предлагать и внедрять улучшения. Кроме того, необходимо управлять процессом разработки и отвечать за его соответствие планам и требованиям.
Мы ждем, что вы
Будет плюсом, если вы