Наша команда занимается созданием инструментов и решений для внутренней безопасности на базе AI. Наши планы имеют широкий спектр - начиная от Classical Machine Learning, DL-моделей для скоринга, поведенческого моделирования и заканчивая AI-агентами.
Сейчас мы ищем Middle/Senior Data Scientist с опытом в классическом ML, нейронных сетях и с желанием развиваться в DL и в других направлениях.
· Сбор, интеграция и предобработка данных из разнородных источников, включая обработку временных рядов, категориальных и числовых признаков.
· Проведение feature engineering с созданием высокоинформативных признаков, отражающих специфику предметной области.
· Разработка, обучение и тонкая настройка (fine-tuning) классических ML моделей: регрессия, решающие деревья, бэггинг, бустинг (XGBoost, LightGBM, CatBoost), SVM, k-NN, кластеризация.
· Разработка и оптимизация алгоритмов прогнозирования и рекомендаций, анализ временны́х данных.
· Детекция появление аномалий в данных.
· Анализ текстовых данных систем логирования для выявления закономерностей.
· Анализ и визуализация данных для выявления закономерностей и инсайтов.
· Валидация моделей с применением кросс-валидации (TimeSeriesSplit, stratified), оптимизация метрик качества (ROC AUC, F1, Precision/Recall).
· Мониторинг и поддержка продуктивных моделей, организация переобучения при дрейфе данных (Data Drift, Concept Drift).
· Внедрение автоматизированных пайплайнов обучения и оценки, интеграция моделей с продакшеном совместно с DevOps-инженерами.
· Подготовка отчетов и презентаций для технических и бизнес-стейкхолдеров, участие в планировании развития ML проектов.
· Менторство и поддержка младших специалистов.
· Глубокое понимание классических алгоритмов машинного обучения: линейная и логистическая регрессия, SVM (с разными ядрами), решающие деревья, ансамблевые методы (Random Forest, Gradient Boosting, XGBoost, LightGBM, CatBoost), k-NN, Наивный Байес, методы кластеризации (k-means, DBSCAN, GMM), методы понижения размерности (SVD, PCA, NMF).
· Решение задач по визуализации данных, результатов обучения и тестирования моделей, снижение размерности для визуализации (t-SNE, UMap).
· Опыт работы с Feature Engineering: кодирование категориальных признаков, масштабирование, создание и отбор признаков, работа с несбалансированными данными (SMOTE, ADASYN).
· Знание методов валидации моделей (k-fold cross-validation, stratified sampling), управления переобучением (регуляризация L1/L2, pruning, early stopping).
· Опыт построения пайплайнов данных на Python с использованием NumPy, Pandas, SciPy, Scikit-learn, а также автоматизации процессов обучения и оценки.
· Навыки работы с SQL и инструментами для обработки больших данных (Spark, Dask).
· Опыт использования или понимание принципов работы Hadoop / PySpark.
· Умение проводить статистический анализ, проверять гипотезы, использовать A/B тестирование.
· Опыт настройки гиперпараметров с помощью Grid Search, Random Search, Bayesian Optimization (Optuna, Hyperopt).
· Владение техникой интерпретируемости моделей: SHAP, LIME, partial dependence plots.
· Практический опыт решения бизнес-задач с помощью классических ML-моделей и понимание, когда использовать простые методы вместо сложных нейросетей.
· Решение задач с рекуррентными и сверточными нейронными сетями, трансформерами, построение бейзлайнов на основе нейронок.
· Как плюс - владение инструментами в области Deep Learning: PyTorch - понимание DataLoader, файн-тюнинг моделей.
· Навыки командной работы, координации проектов и менторства младших коллег
Используемый стек:
· Библиотеки работы с табличными данными: Numpy, Pandas
· ML, DL библиотеки: Sklearn, PyTorch, imblearn
Библиотеки визуализации: matplotlib, seaborn
Москва
Не указана
ТЕХНОЛОГИИ ОТРАСЛЕВОЙ ТРАНСФОРМАЦИИ
Москва
Не указана
Москва
Не указана