Москва, улица Ленинская Слобода, 26с3
Метро: АвтозаводскаяХотим усиливаться новыми единомышленниками, которые как могут принести нам свою уникальную экспертизу в ML/AI, так и развиваться в интересном для себя направлении — от инженера до solution architect, имея доступ к классным спецам и реальным highload-задачам.
Что делаем
Проектируем и внедряем ML/AI-решения на базе LLM, трансформеров, эмбеддингов и агентских пайплайнов для анализа текстов, классификации контента и персонализации в Mediatech-продуктах РБК. Работаем с новостными потоками, аудио и видео-контентом, строим рекомендательные системы и интеллектуальную обработку данных.
Наш технологический стек
Чем предстоит заниматься
Проектирование и реализация ML-решений для анализа текстов, классификации и сегментирования контента
Построение RAG-пайплайнов: chunking, retrieval, reranking, борьба с hallucinations
Разработка агентских систем: tool-use, planning, ограничение действий, трассировка
Создание рекомендательных систем: от классического CF до learning-to-rank с учетом CTR, retention и diversity
Упаковка моделей в production-сервисы: API, контрактирование, интеграция с продуктом
Подготовка данных: разметка, очистка, балансировка, hard negatives
Оффлайн- и онлайн-оценка качества: A/B тесты, error analysis, наблюдаемость
Развитие до solution architect: проектирование компонентов, интерфейсов, схемы деградации
Наши ожидания
Уверенные навыки разработки на Python: типизация, тестирование, профилирование, код-стайл, работа с памятью/скоростью
Стек ML: PyTorch (или TensorFlow), Hugging Face Transformers/Datasets, sentence-transformers, scikit-learn
Инференс и оптимизация: batching, quantization (8-bit/4-bit), distillation (понимание), latency/cost trade-offs
Построение RAG: выбор векторного хранилища (FAISS/Milvus/PGVector/Elastic), chunking-стратегии, rerankers, кеширование
Агентские пайплайны: оркестрация (например, LangGraph/LangChain-подходы или кастом), tool-calling, ограничение действий, трассировка
Data pipeline: подготовка датасетов, разметка/weak supervision, очистка, балансировка, hard negatives
API/сервисы: упаковка модели в сервис (FastAPI/Flask), контрактирование (OpenAPI), интеграция с продуктом
Контур качества: оффлайн eval (наборы, regression tests), online A/B, error analysis, наблюдаемость (логирование, traces, dashboards)
Будет плюсом
Понимание домена: контентные таксономии, редакционные процессы, лента/витрины, модерация, тренды
Персонализация и ранжирование ленты: multi-objective (CTR, retention, diversity, quality), exploration vs exploitation
Контентная безопасность: токсичность/ненависть/NSFW/дезинформация (на уровне подходов), human-in-the-loop
Мультиязычность: RU/EN/локальные языки, кросс-лингвальные эмбеддинги, трансформа качества на разных языках
Понимание источников трафика и аналитики: event tracking, атрибуция, cohort/retention, экспериментальная платформа
Что предлагаем