Мы – команда АО НПК «БАРЛ»: российской инженерной компании в сфере космических технологий, ДЗЗ и геоинформационных решений. В этом направлении мы разрабатываем прикладное программное решение, которое объединяет данные из разнородных источников (ДЗЗ, телеметрию, справочные и открытые данные) в единое хранилище, выполняет автоматическую обработку и анализ с применением методов машинного обучения, поддерживает релевантную выдачу результатов пользователю через веб-интерфейс и отчётные материалы. В команду нужен инженер данных, который поможет строить и поддерживать надёжные процессы работы с данными, в том числе пространственными.
Чем предстоит заниматься (обязанности)
- Подключать новые источники данных (БД, файлы, API) и описывать их структуру/качество.
- Разрабатывать и поддерживать процессы загрузки и преобразования данных (ETL/ELT): расписания, повторные запуски, обработка ошибок, контроль дублей.
- Проектировать и развивать структуру хранения данных: таблицы, связи, индексы и т.д.
- Готовить “витрины”/наборы данных под задачи аналитиков и продуктовых команд.
- Настраивать проверки качества данных: полнота, корректность, актуальность, диапазоны значений, аномалии, отчёты о качестве.
- Оптимизировать запросы и процессы: ускорение расчётов, снижение нагрузки на БД/хранилища, контроль затрат ресурсов.
- Документировать потоки данных и договорённости по форматам.
- Работать совместно с аналитиками, разработчиками и ML-инженерами: уточнять требования к данным, помогать с подготовкой наборов данных.
ГИС-часть (опционально):
- Загружать и приводить к единому виду пространственные данные (вектор/растр).
- Поддерживать хранение пространственных данных в БД (PostGIS): геометрии, индексы, контроль корректности геометрий.
- Следить за корректностью систем координат (CRS): приведение к единому CRS, правила трансформаций, контроль ошибок.
- Готовить данные для отображения на карте.
Наши ожидания (обязательные требования)
- Уверенный SQL (соединения, агрегаты, оконные функции, оптимизация запросов).
- Практический Python для обработки данных и написания сервисных скриптов.
- Опыт построения процессов загрузки/преобразования данных (ETL/ELT) от ~1 года или сильный опыт в смежной роли (аналитика/разработка) и готовность быстро добрать практику.
- Понимание базовых принципов работы БД: индексы, ограничения целостности, типы данных, транзакции.
- Уверенная работа с Linux и Git (не боитесь терминала).
- Аккуратность и воспроизводимость: чтобы расчёт/загрузка повторялись и проверялись.
Будет плюсом (но не обязательно)
- Оркестрация задач: Apache Airflow (или аналоги), опыт настройки расписаний и зависимостей.
- Потоковые данные и очереди: Kafka/RabbitMQ (или аналоги).
- Большие данные: Spark/Hadoop (или понимание принципов).
- Практика построения мониторинга качества данных (алерты/метрики/дашборды).
Мы предлагаем
- Оформление по ТК.
- Гибкий график, офис/удалёнка/гибрид.
- Адекватный процесс: задачи через понятные требования, возможность влиять на техрешения.
- Время на развитие: обучение инструментам, обмен опытом.
- Уровень дохода обсуждается по итогам собеседования .