Мы создаём высокотехнологичную аналитическую платформу для прогнозирования мутаций РНК-вирусов (грипп птиц A) и картирования эпизоотических рисков.
Проект направлен на переход от ретроспективного анализа к предиктивной биоинформатике, позволяющей выявлять потенциальные мутационные изменения до их распространения в популяции.
Система объединяет:
- машинное обучение и deep learning
- биоинформатику и филогенетику
- анализ геномных и протеомных данных
- геопространственную аналитику (эпизоотические карты риска)
Цель проекта
Создание платформы, способной:
- прогнозировать вероятные мутации вируса гриппа птиц A (HA/NA и геном)
- выявлять мутационные «hotspots»
- оценивать вероятность появления аминокислотных замен
- моделировать эпизоотические риски по регионам
- формировать сценарные прогнозы на горизонте до 10 лет (как сценарное моделирование)
Основной функционал платформы
1. Модели прогнозирования мутаций
- анализ FASTA-данных (нуклеотиды и аминокислоты)
- обработка ≥20 000 геномных последовательностей
- выявление эволюционных закономерностей
- прогноз вероятности мутаций по позициям генома
- учет филогенетических связей
2. Эпизоотическая аналитика
- интерактивная карта глобальных и региональных очагов
- визуализация вспышек заболеваний
- отображение прогнозных зон риска
- анализ миграции перелётных птиц
- оценка трансграничного распространения
3. Филогенетический анализ
- динамическое дерево эволюции вируса
- интерактивная навигация по кластерам
- привязка мутаций к узлам дерева
- визуализация вероятностных сценариев
4. Data & MLOps платформа
- ETL-пайплайны для геномных данных
- обучение и запуск моделей
- журнал экспериментов (reproducibility)
- версия датасетов, моделей и кода
- асинхронный inference
5. Веб-платформа
- загрузка и проверка данных (FASTA)
- запуск моделей прогнозирования
- мониторинг задач
- история запусков
- управление пользователями и ролями
- административная панель
- экспорт результатов
Требуемый стек (ожидаемый)
ML / BioAI:
- Python
- PyTorch / TensorFlow
- BioPython
- Scikit-learn
- XGBoost / LightGBM
- Transformer models (желательно)
Биоинформатика:
- филогенетический анализ
- выравнивание последовательностей (MSA)
- анализ мутаций HA/NA
Data Engineering:
- PostgreSQL / ClickHouse
- ETL pipelines
- Airflow / Prefect
- Docker / Kubernetes
Backend:
- FastAPI / Django
- микросервисная архитектура
Frontend:
- React / TypeScript
- GIS / Mapbox / Leaflet (карта эпизоотий)
Требования к кандидату / команде
Обязательные:
- опыт ML проектов в биоинформатике или медицинской аналитике
- работа с геномными / протеомными данными
- опыт построения prediction моделей временных рядов
- опыт работы с большими датасетами (≥20k последовательностей)
- понимание вирусологии (желательно грипп A)
- опыт построения production ML систем
Будет плюсом:
- опыт в эпидемиологии / эпизоотологии
- опыт с phylogenetic trees
- опыт построения геоаналитических систем
- опыт работы с research-grade ML (R&D)