Ведущий специалист по данным и моделям / Senior Applied Scientist

Кситест

Ведущий специалист по данным и моделям / Senior Applied Scientist

Москва, Пятницкая улица, 71/5с2

Метро: Добрынинская

Описание вакансии

Кситест — лидер геномной селекции в России и СНГ, единственная компания с международной аккредитацией ICAR. Мы повышаем продуктивность и здоровье сельскохозяйственных животных с помощью геномных оценок племенной ценности. Среди наших клиентов — крупнейшие агрохолдинги страны.

Мы ищем сильного специалиста в команду, отвечающую за аналитическое ядро продукта: пайплайны обработки данных, модели прогноза, математическую оптимизацию и исследовательские задачи.

Вам предстоит участвовать во всех частях разработки продукта — от проектирования пайплайнов и моделей до контроля качества результатов, которые получают клиенты. У вас будет прямое влияние на решения, определяющие развитие исследовательской части продукта, и возможность формировать планы и видение этого направления.

Обязанности:

  • Проектировать и развивать пайплайны обработки генотипов, загрузки фенотипов, расчёт племенных оценок.

  • Поддерживать и улучшать модельное ядро: BLUP / ssGBLUP, оценка дисперсионных компонент, селекционные индексы.

  • Развивать инфраструктуру данных: миграция промежуточного хранилища на колоночные СУБД (ClickHouse), проектирование схем, обеспечение идемпотентности и воспроизводимости пайплайнов.

  • Вести исследовательскую работу: проверка гипотез по улучшению точности оценок, новые модели, новые признаки.

  • Работать с задачами математической оптимизации (подбор пар, минимизация инбридинга, формирование племенного ядра).

  • Обеспечивать контроль качества на всех этапах: от сырых данных до финальных индексов, которые видит клиент.

Требования:
  • 5+ лет опыта в разработке систем обработки данных на Python.
  • Опыт проектирования и поддержки промышленных пайплайнов (загрузка, трансформация, модели, аналитика) — не только ноутбуки и прототипы.
  • Сильный SQL (оконные функции, CTE, оптимизация запросов, работа со схемами).
  • Опыт работы с колоночными или аналитическими СУБД (ClickHouse, Vertica, BigQuery, DuckDB).
  • Уверенное владение статистикой, машинным обучением или математической оптимизацией в промышленном контексте.
  • Опыт миграции или рефакторинга существующих пайплайнов без остановки работающей системы.
  • Самостоятельность: способность разобраться в чужом коде, в незнакомом домене, принять решение и довести до результата.

Большой плюс: почему стоит рассмотреть

  • Опыт в биоинформатике, количественной генетике или смежных областях (медицинская генетика, популяционная генетика).

  • Знание BLUP/GBLUP, анализа родословных, работы с SNP-данными.

  • Опыт с вероятностными моделями (байесовский вывод, MCMC, EM-алгоритм).

  • Опыт в доменах с высокой ценой ошибки, где неточность в данных имеет реальные последствия.

Стек и контекст:
  • Python (pandas, NumPy, SciPy, SQLAlchemy, boto3) — основной язык всех пайплайнов.
  • PostgreSQL — продуктовая БД, сложные аналитические SQL-запросы.
  • ClickHouse — целевая СУБД для аналитического хранилища.
  • Apache Airflow — оркестрация пайплайнов.
  • MiXBLUP — движок смешанных моделей для расчёта племенных оценок.
  • PLINK, KING, Beagle — биоинформатические инструменты для анализа генотипов.
  • TensorFlow Probability, cvxpy, MOSEK — вероятностные модели и оптимизация.
  • S3 — хранение генотипных данных.

Не обязательно знать всё из списка. Обязательно — уметь быстро разбираться в незнакомых инструментах и доменах.

Почему стоит рассмотреть нашу вакансию:

  • Уникальный домен. Геномная селекция — одна из немногих областей, где модели и инженерия данных напрямую меняют реальный мир: продуктивность стад, здоровье животных, экономику целых регионов.

  • Влияние на продукт. Возможность формировать видение и планы исследовательской части продукта, а не просто выполнять задачи по списку.

  • Нетривиальные задачи. Смешанные модели на десятках тысяч животных, комбинаторная оптимизация подбора пар, импутация генотипов, мультитрейтовые корреляции.

Условия:
  • Гибрид (работа в уютном офисе в центре Москвы/ удаленный формат)
  • Зарплата по результатам собеседования

Как проходит отбор:

1. Рассмотрение заявки.

2. Техническое интервью (90 мин): два кейса — системный дизайн аналитического пайплайна и исследовательская задача с погружением в домен.

3. Встреча с руководителем компании (30 мин).

Откликайтесь, если хотите развивать аналитическое ядро компании, которая меняет сельское хозяйство с помощью генетики.

Навыки
  • Python
  • PostgreSQL
  • Clickhouse
  • Apache Airflow
  • TensorFlow
Посмотреть контакты работодателя

Адрес

Похожие вакансии

  • Москва

  • Не указана

Рекомендуем
Лаборатория Касперского

Senior AI Engineer

Лаборатория Касперского

  • Москва

  • Не указана

Рекомендуем
SDI Research

Senior ML/AI Engineer

SDI Research

  • Москва

  • Не указана

Рекомендуем
Специализированный депозитарий ИНФИНИТУМ

Team/Tech lead ML/LLM разработки

Специализированный депозитарий ИНФИНИТУМ

  • Москва

  • Не указана

Федеральная сеть книжных магазинов Читай-город

Data Scientist / ML-инженер

Федеральная сеть книжных магазинов Читай-город

  • Москва

  • Не указана

СБЕР
  • Москва

  • Не указана

Data Scientist (RAG Systems) — Middle+ / Senior

Трейдмарк холдер

  • Москва

  • до 4000 USD

Леста Игры

Data Scientist

Леста Игры

  • Москва

  • до 4000 USD

Циан
  • Москва

  • до 4000 USD

Ит-Финанс

Data Scientist

Ит-Финанс

  • Москва

  • до 4000 USD

МАГНИТ, Розничная сеть

Главный разработчик ML

МАГНИТ, Розничная сеть

  • Москва

  • до 4000 USD

ТЕКОН-Инжиниринг
  • Москва

  • до 4000 USD

HeadHunter
  • Москва

  • до 4000 USD

Trading Integral Solutions

Senior Data Scientist – Energy Trading

Trading Integral Solutions

  • Москва

  • до 7000 USD

СБЕР
  • Москва

  • до 7000 USD

Хотите оставить вакансию?

Заполните форму и найдите сотрудника всего за несколько минут.
Оставить вакансию