Мы развиваем продуктовые решения на стыке ML, NLP и LLM и ищем опытного Data Scientist уровня middle+ или senior, который готов не только разрабатывать модели, но и влиять на архитектуру, технологический стек и направления развития продукта.
Чем предстоит заниматься:
- Проектировать и развивать ML/NLP-модули для продуктовых фич и R&D-инициатив:
- модели на основе современных LLM и классического ML;
- пайплайны для обработки текстовых и мультимодальных данных.
- Разрабатывать и улучшать RAG-системы:
- выбор и настройка векторных баз данных;
- дизайн пайплайнов поиска, ранжирования и генерации ответов;
- оптимизация качества извлечения и генерации.
- Интегрировать LLM и ML-модули в продукт:
- участие в разработке архитектуры решения;
- интеграция через API с внешними сервисами и внутренними системами;
- совместная работа с backend/infra-командой.
4. Влиять на архитектуру и технологический стек:
- участие в выборе фреймворков, библиотек и сервисов;
- проектирование структур данных и ML-пайплайнов;
- участие в выработке технических стандартов и best practices.
5. Работать с данными по полному циклу:
- сбор, предобработка и очистка данных;
- формирование датасетов для обучения/валидации;
- анализ качества и мониторинг деградации моделей.
6. Оптимизировать производительность и качество:
- эксперименты с архитектурами моделей и гиперпараметрами;
- оптимизация latency и стоимости запросов к LLM/инфраструктуре;
- рефакторинг и повышение читаемости/поддерживаемости кода.
7. Взаимодействовать с продуктовой командой:
- участие в формулировке задач и критериев успеха;
- декомпозиция задач, оценка сроков, прозрачная коммуникация по статусу;
- презентация результатов и обоснование технических решений.
Мы ожидаем от кандидата: - Уверенное владение Python для продакшн-разработки:
- работа со стандартным стеком разработки (типизация, тестирование, логирование);
- опыт написания чистого и поддерживаемого кода.
2. Практический опыт в ML и NLP:
- использование библиотек transformers (Hugging Face), PyTorch или TensorFlow, scikit-learn;
- опыт обучения, дообучения и инференса моделей в реальных задачах.
3. Понимание и опыт работы с RAG-системами:
- концепции retrieval-augmented generation;
- векторные представления, similarity-поиск, индексация;
- базовые принципы проектирования таких систем.
4. Опыт работы хотя бы с одной векторной БД:
- Weaviate, Qdrant, Milvus/Zilliz, Pinecone, Chroma, FAISS или аналоги.
5. Понимание фреймворков для оркестрации LLM:
- практический опыт или уверенное знакомство с LangChain, LlamaIndex и т.п.
6. Глубокое понимание базовых концепций ML:
- линейная алгебра, теория вероятностей, математическая статистика;
- принципы обучения, валидации и оценки качества моделей;
- понимание переобучения, регуляризации, выбор метрик.
7. Навыки работы с API:
- интеграция с внешними LLM/ML-сервисами;
- разработка и использование собственных сервисов/endpoint-ов.
8. Навыки работы с данными:
- предобработка и трансформация данных (JSON, CSV, текст, SQL/NoSQL);
- уверенное владение инструментами анализа данных (pandas или аналоги).
9. Опыт самостоятельного ведения задач end-to-end:
- от постановки и проработки решения до внедрения;
- способность обосновывать выбор подхода и архитектуры.
10. Умение принимать технические решения:
- сравнение альтернативных подходов и стеков;
- умение объяснить trade-offs для бизнеса и команды.
11. Развитые навыки коммуникации:
- умение работать с неопределённостью;
- умение объяснять сложные вещи простым языком для продукта/бизнеса.
Будет плюсом:
1. Продакшн-опыт и опыт работы с инфраструктурой:
- контейнеризация (Docker);
- базовое понимание CI/CD и мониторинга/логирования ML-сервисов.
2. Опыт создания или масштабирования RAG-систем:
- работа с большими корпусами документов;
- тюнинг relevancy/recall/precision, reranking.
3. Опыт работы с мультимодальными моделями (текст+изображения/аудио/таблицы) и кастомными пайплайнами.
4. Участие в open-source проектах, публикации/доклады на тему ML/NLP/LLM, ведение технического блога.
5. Опыт архитектурного проектирования ML-систем:
- проектирование data/feature store, inference-сервисов, очередей;
- взаимодействие с MLOps-инструментами (MLflow, Airflow и др.).
Работа у нас – это:
- Работа в развивающейся международной компании с перспективой роста;
- Удаленный формат работы;
- Официальное трудоустройство в аккредитованной IT компании;
- Прозрачная система вознаграждения;
- Возможность соблюдать баланс работы и отдыха (work/life balance);
- Программа Work&Life Bonus (компенсация медицинских услуг, фитнеса, рабочего оборудования, а также обучения и курсов);
- Возможность посещения внутренних митапов и неформальных мероприятий;
- Обширные ресурсы и компетенции Компании для реализации ваших проектов и идей.