ML-инженер

Описание вакансии

Мы развиваем продуктовые решения на стыке ML, NLP и LLM и ищем опытного Data Scientist уровня middle+ или senior, который готов не только разрабатывать модели, но и влиять на архитектуру, технологический стек и направления развития продукта.

Чем предстоит заниматься:

Проектировать и развивать ML/NLP-модули для продуктовых фич и R&D-инициатив:
- модели на основе современных LLM и классического ML;
- пайплайны для обработки текстовых и мультимодальных данных.
Разрабатывать и улучшать RAG-системы:
- выбор и настройка векторных баз данных;
- дизайн пайплайнов поиска, ранжирования и генерации ответов;
- оптимизация качества извлечения и генерации.
Интегрировать LLM и ML-модули в продукт:

участие в разработке архитектуры решения;
интеграция через API с внешними сервисами и внутренними системами;
совместная работа с backend/infra-командой.

4. Влиять на архитектуру и технологический стек:

участие в выборе фреймворков, библиотек и сервисов;
проектирование структур данных и ML-пайплайнов;
участие в выработке технических стандартов и best practices.

5. Работать с данными по полному циклу:

сбор, предобработка и очистка данных;
формирование датасетов для обучения/валидации;
анализ качества и мониторинг деградации моделей.

6. Оптимизировать производительность и качество:

эксперименты с архитектурами моделей и гиперпараметрами;
оптимизация latency и стоимости запросов к LLM/инфраструктуре;
рефакторинг и повышение читаемости/поддерживаемости кода.

7. Взаимодействовать с продуктовой командой:

участие в формулировке задач и критериев успеха;
декомпозиция задач, оценка сроков, прозрачная коммуникация по статусу;
презентация результатов и обоснование технических решений.

Мы ожидаем от кандидата:

Уверенное владение Python для продакшн-разработки:

работа со стандартным стеком разработки (типизация, тестирование, логирование);
опыт написания чистого и поддерживаемого кода.

2. Практический опыт в ML и NLP:

использование библиотек transformers (Hugging Face), PyTorch или TensorFlow, scikit-learn;
опыт обучения, дообучения и инференса моделей в реальных задачах.

3. Понимание и опыт работы с RAG-системами:

концепции retrieval-augmented generation;
векторные представления, similarity-поиск, индексация;
базовые принципы проектирования таких систем.

4. Опыт работы хотя бы с одной векторной БД:

Weaviate, Qdrant, Milvus/Zilliz, Pinecone, Chroma, FAISS или аналоги.

5. Понимание фреймворков для оркестрации LLM:

практический опыт или уверенное знакомство с LangChain, LlamaIndex и т.п.

6. Глубокое понимание базовых концепций ML:

линейная алгебра, теория вероятностей, математическая статистика;
принципы обучения, валидации и оценки качества моделей;
понимание переобучения, регуляризации, выбор метрик.

7. Навыки работы с API:

интеграция с внешними LLM/ML-сервисами;
разработка и использование собственных сервисов/endpoint-ов.

8. Навыки работы с данными:

предобработка и трансформация данных (JSON, CSV, текст, SQL/NoSQL);
уверенное владение инструментами анализа данных (pandas или аналоги).

9. Опыт самостоятельного ведения задач end-to-end:

от постановки и проработки решения до внедрения;
способность обосновывать выбор подхода и архитектуры.

10. Умение принимать технические решения:

сравнение альтернативных подходов и стеков;
умение объяснить trade-offs для бизнеса и команды.

11. Развитые навыки коммуникации:

умение работать с неопределённостью;
умение объяснять сложные вещи простым языком для продукта/бизнеса.

Будет плюсом:

1. Продакшн-опыт и опыт работы с инфраструктурой:

контейнеризация (Docker);
базовое понимание CI/CD и мониторинга/логирования ML-сервисов.

2. Опыт создания или масштабирования RAG-систем:

работа с большими корпусами документов;
тюнинг relevancy/recall/precision, reranking.

3. Опыт работы с мультимодальными моделями (текст+изображения/аудио/таблицы) и кастомными пайплайнами.

4. Участие в open-source проектах, публикации/доклады на тему ML/NLP/LLM, ведение технического блога.

5. Опыт архитектурного проектирования ML-систем:

проектирование data/feature store, inference-сервисов, очередей;
взаимодействие с MLOps-инструментами (MLflow, Airflow и др.).

Работа у нас – это:

Работа в развивающейся международной компании с перспективой роста;
Удаленный формат работы;
Официальное трудоустройство в аккредитованной IT компании;
Прозрачная система вознаграждения;
Возможность соблюдать баланс работы и отдыха (work/life balance);
Программа Work&Life Bonus (компенсация медицинских услуг, фитнеса, рабочего оборудования, а также обучения и курсов);
Возможность посещения внутренних митапов и неформальных мероприятий;
Обширные ресурсы и компетенции Компании для реализации ваших проектов и идей.