Мы создаём продукты и сервисы для клиентов на основе предиктивных моделей с использованием методов машинного обучения и собственной платформы обработки больших данных.
Задачи
Готовить ad hoc по существующим моделям и сервисам
Разрабатывать модели машинного обучения на новых данных
Изучать и обрабатывать данные из разных источников
Внедрять регулярный расчёт новых признаков, улучшать мониторинг качества данных
Генерировать и проверять гипотезы по улучшению моделей — текущих и будущих
Развивать инфраструктуру существующих сервисов
Писать продуктивизируемые пайплайны скриптов (не просто Jupyter Notebook) для внедрения моделей, признаков, а также для создания и поддержки функционирования новых продуктов
Требования
Высшее техническое образование по IT-профилю либо экономическое образование с повышением квалификации в MADE VK, ШАД и на других специализированных курсах
Релевантный коммерческий опыт от двух лет
Умение разрабатывать пайплайны для обработки данных с Python и PySpark
Желание расти в ML и DS, а также развивать инфраструктуру development и production
Глубокое знание классического машинного обучения
Сильная математическая подготовка (особенно в теорвере и статистике), понимание математической базы ML-алгоритмов
Уверенное программирование на Python — использование ООП и библиотек NumPy, Pandas, Sklearn, LightGBM, CatBoost, PySpark
Знание SQL и основ баз данных
Будет плюсом
Опыт в задачах DE или MLE
Опыт работы с PySpark, Hadoop
Умение писать bash-скрипты, понимание возможностей командной строки Unix-подобных систем
Опыт обработки текстовых данных и последовательностей