ML-разработчик

Seldon

ML-разработчик

Нижний Новгород, улица Тимирязева, 15к2

Метро: Горьковская

Описание вакансии

Компания «Селдон» — российский разработчик IT-решений в сфере анализа закупок, поиска данных и автоматизации работы с тендерной информацией. Мы создаём продукты для обработки больших массивов закупочной документации, интеллектуального поиска, аналитики и автоматизации бизнес-процессов.

Сейчас мы расширяем команду и ищем ML-разработчика для развития NLP/ML-решений в области анализа закупок и документов.

Чем предстоит заниматься

  • Сбор из базы данных, очистка и нормализация данных для обучения моделей: закупки, лоты, ОКПД2, заказчики, поставщики, документы, протоколы и OCR-тексты.
  • Анализ качества данных: поиск пропусков, дублей, шумных записей, ошибок OCR, нестабильных признаков и проблем в исходных источниках.
  • Формирование обучающих выборок для классификации закупок, извлечения сущностей, поиска похожих объектов и ранжирования лидов.
  • Разработка правил и слабой разметки с использованием словарей, регулярных выражений, ОКПД2, истории закупок, похожих документов и LLM.
  • Работа с NLP-подходами: TF-IDF, BM25, embeddings, классификация текстов, кластеризация, поиск похожих документов и NER.
  • Классификация закупок по категориям на основе названий, описаний, ОКПД2, документов и истории похожих закупок.
  • Извлечение сущностей из документов: участников, поставщиков, компаний, брендов, моделей, товаров, требований, условий участия, обеспечения и банковских гарантий.
  • Поиск похожих закупок, лотов и документов по тексту, смыслу, ОКПД2, заказчику, региону и другим признакам.
  • Построение скоринга закупки как коммерческого лида: оценка перспективности закупки для менеджеров и выявление признаков интереса.
  • Использование LLM для разметки данных, анализа ошибок, поиска паттернов, генерации правил и подготовки обучающих корпусов.
  • Обучение, тестирование и сравнение моделей: настройка параметров, анализ ошибок, сравнение baseline-подходов и более сложных моделей.
  • Оценка качества моделей: контроль precision/recall/F1, анализ false positive/false negative, подготовка понятных отчётов по качеству.
  • Внедрение моделей в продукт: интеграция в API, внутренние пайплайны, карточки закупок, системы поиска, аналитики и скоринга лидов.
  • Мониторинг качества в продакшене, поддержка и дообучение моделей с учётом новых данных, изменений в закупочной практике и бизнес-требованиях.
  • Взаимодействие с разработчиками, аналитиками и бизнес-заказчиками: постановка ML-задач, согласование метрик, требований к данным и форматов интеграции.

Что мы ожидаем от кандидата — Обязательные навыки

  • Уверенное владение Python для анализа данных и разработки ML/NLP-пайплайнов.

  • Опыт работы с Pandas / Polars / NumPy.

  • Опыт применения Scikit-learn для классических ML-задач.

  • Опыт решения NLP-задач: классификация текстов, поиск похожих документов, кластеризация, дедупликация.

  • Практический опыт с TF-IDF, BM25, cosine similarity, embeddings.

  • Умение быстро строить baseline-решения и сравнивать простые подходы со сложными моделями.

  • Опыт работы с грязными данными: пропуски, дубли, шум, нестабильные форматы, OCR-ошибки, неоднородные источники.

  • Уверенное знание SQL.

  • Понимание метрик качества: precision, recall, F1, ROC-AUC, PR-AUC, confusion matrix.

  • Умение анализировать ошибки модели, находить причины ложных срабатываний и пропусков.

  • Умение готовить понятные отчёты по качеству моделей для разработки и бизнеса.

  • Понимание, что ML-модель должна решать бизнес-задачу, а не только показывать хорошую offline-метрику.

Будет плюсом

  • Опыт работы с русскоязычными текстами.

  • Опыт с BERT / RuBERT / Sentence Transformers / BGE / e5 / transformers.

  • Опыт с NER: GLiNER, spaCy, transformers.

  • Опыт использования LLM для разметки, анализа данных и поиска паттернов.

  • Опыт с OCR-текстами, PDF/Word/HTML-документами и табличными фрагментами.

  • Опыт с Elasticsearch / OpenSearch / Manticore / Sphinx / Lucene-подобными поисковыми системами.

  • Опыт с ranking/recommendation задачами.

  • Опыт с графовыми признаками: Node2Vec, metapath2vec, графы поставщик-заказчик-закупка-ОКПД2.

  • Понимание active learning и weak supervision.

  • Опыт организации или использования экспертной разметки.

  • Опыт внедрения ML-решений в реальные продукты или внутренние бизнес-процессы.

Мы предлагаем

  • Работу над прикладными AI/ML-продуктами с реальной бизнес-нагрузкой.

  • Большие объёмы данных и сложные NLP-задачи.

  • Возможность влиять на архитектуру решений и развитие ML-направления.

  • Профессиональную команду разработки и аналитики.

  • Оформление по ТК РФ.

  • Конкурентную заработную плату.

  • Удаленный формат работы.

  • Возможности профессионального и карьерного роста.

Навыки
  • SQL
  • XML
  • pandas
  • Numpy
  • Scikit-learn
  • Big Data
  • Python
Посмотреть контакты работодателя

Адрес

Похожие вакансии

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию