Data scientist (ML Engineer)

РЖД - Цифровые пассажирские решения

Data scientist (ML Engineer)

Москва, Новорязанская улица, 8Ас2

Метро: Комсомольская

Описание вакансии

Обязанности:
  • Решение бизнес-задач: Понимание бизнес-проблемы, перевод ее в задачу ML/AI, определение метрик успеха (как технических, так и бизнес-ориентированных)
  • Работа с данными: Сбор, анализ и понимание больших и сложных наборов данных (текст, цифры, мультимодальные данные). Предобработка, очистка, feature engineering. Управление данными, обеспечение их качества и согласованности
  • Разработка и обучение моделей: Выбор, разработка, обучение, тонкая настройка (fine-tuning) и оценка моделей ML/DL (от классических алгоритмов до современных архитектур трансформеров). Экспериментирование с разными подходами, архитектурами, гиперпараметрами. Работа с распределенным обучением (при необходимости)
  • Внедрение в Production (MLOps): Упаковка модели (контейнеризация). Развертывание моделей в production-среды (Kubernetes, облачные сервисы). Создание воспроизводимых пайплайнов обучения/инференса (Airflow, Kubeflow, Metaflow)
  • Мониторинг и поддержка: Мониторинг производительности моделей в production (задержка, пропускная способность, использование ресурсов). Анализ сбоев и ошибок модели, оперативное реагирование на деградацию качества. Планирование и выполнение переобучения моделей
Требования:

Глубокое понимание машинного обучения:

  • Теория: основы статистики, вероятности, линейной алгебры, мат. анализа
  • Алгоритмы: Регрессия, Классификация, Кластеризация, PCA, SVM, Деревья решений (RF, GBDT - XGBoost, LightGBM, CatBoost)
  • Оценка моделей: Знание и правильный выбор метрик для разных задач (Accuracy, Precision, Recall, F1, AUC-ROC, LogLoss, BLEU, ROUGE, Perplexity и т.д.)

Глубокое понимание Deep Learning:

  • Основы: нейронные сети (FFNN, CNN, RNN/LSTM/GRU), принципы обучения (backprop, оптимизаторы Adam/SGD, регуляризация Dropout/BatchNorm)
  • Трансформеры: архитектура (self-attention, encoder-decoder), принципы работы, предобучение (pre-training), тонкая настройка (fine-tuning), prompt engineering/tuning. Опыт работы с LLM
  • Frameworks: PyTorch или TensorFlow.Умение эффективно писать и отлаживать код на них

MLOps принципы и практики:

  • Версионирование: данных (DVC) и Моделей (MLflow, DVC)
  • Контейнеризация: Docker (Желательно)
  • Оркестрация: Kubernetes, опыт работы с облачными платформами (AWS SageMaker, GCP Vertex AI, Azure ML - хотя бы одной обязательно)
  • Пайплайны: Airflow, Kubeflow Pipelines, Metaflow или аналоги (Обязательно опыт построения/использования)
  • Мониторинг: понимание и практический опыт инструментов для мониторинга дрифта и качества моделей (Evidently, WhyLabs, Arize, Prometheus/Grafana

Инженерия признаков (Feature Engineering): умение создавать, отбирать и преобразовывать признаки, особенно для NLP (токенизация, эмбеддинги - Word2Vec, GloVe, контекстные эмбеддинги моделей) и других специфических данных

Облачные платформы: практический опыт работы с одной из основных облачных платформ (AWS, GCP, Azure) и их ML-сервисами

Обработка естественного языка (NLP): глубокое понимание задач NLP (токенизация, NER, классификация текста, машинный перевод, генерация текста, QA) и современных подходов (LLMs)

Знания:

Языки программирования:

  • Python (PyTorch, TensorFlow, Scikit-learn, Pandas, NumPy,nltk, spaCy, regex)
  • SQL (на уровне сложных запросов)

MLOps Инструменты:

  • Git
  • Docker (желательно)
  • MLflow / DVC (Обязательно - хотя бы один для версионирования моделей/данных)
  • Airflow / Kubeflow Pipelines / Metaflow (Обязательно - опыт работы с пайплайнами)
  • Инструменты мониторинга (Evidently, WhyLabs, Arize, Prometheus/Grafana)

Прочее:

  • Linux/Unix (Обязательно)
  • Jupyter Notebook / JupyterLab
  • Hugging Face Transformers
Условия:
  • Работа в крупной IT-компании, дочернее общество ОАО "РЖД"
  • Интересные проекты всероссийского масштаба
  • Оформление, отпуска, больничные по ТК, "белая" заработная плата
  • График работы: понедельник-пятница, 8-ми часовой рабочий день (работа в офисе)
  • Офис в БЦ "Workki", м. Комсомольская, Красные ворота
  • ДМС (включая стоматологию)
Навыки
  • Python
  • SQL
  • Git
  • Docker
  • MLflow
  • Linux
  • Unix
  • Pipeline
  • Prometheus
  • Grafana
  • Jupyter Notebook
  • Jupiter
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Т-Банк
Полный день
  • Москва

  • Не указана

Рекомендуем
Платформа ОФД

Data scientist (NLP) middle/sen

Платформа ОФД

Полный день
  • Москва

  • Не указана

Рекомендуем
Код Безопасности

ML-инженер

Код Безопасности

Полный день
  • Москва

  • Не указана

Рекомендуем
Т-Банк
Полный день
  • Москва

  • Не указана

Корпоративный университет Сбербанка

Data scientist Middle+

Корпоративный университет Сбербанка

Полный день
  • Москва

  • Не указана

Синхро
Удаленная работа
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

ГУП Московский социальный регистр

Data Scientist

ГУП Московский социальный регистр

Полный день
  • Москва

  • Не указана

Национальное Бюро Информатизации

Алгоритмист - разработчик (Applied ML)

Национальное Бюро Информатизации

Полный день
  • Москва

  • Не указана

Ecom.tech
Полный день
  • Москва

  • Не указана

Лига Цифровой Экономики

Data Scientist (LLM)

Лига Цифровой Экономики

Удаленная работа
  • Москва

  • Не указана

Гибрид
Удаленная работа
  • Москва

  • Не указана

АйТи БАСТИОН

Data Scientist (Python)

АйТи БАСТИОН

Полный день
  • Москва

  • Не указана

Т-Банк
Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

Программный Продукт, ИТ-компания

ML-инженер / NLP-специалист

Программный Продукт, ИТ-компания

Удаленная работа
  • Москва

  • Не указана

ML-engineer

Платформа Трим

Полный день
  • Москва

  • Не указана

СБЕР
Полный день
  • Москва

  • Не указана

ГАЛА-ЦЕНТР
Полный день
  • Москва

  • от 300000 RUR

СБЕР
Полный день
  • Москва

  • от 300000 RUR

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию