В Центре робототехники Сбера мы создаем роботов и системы ИИ, которым нужны большие и аккуратно подготовленные наборы данных. Data Conveyor Team отвечает за путь этих данных от сырых записей до формата, с которым могут работать ML-команды. Сейчас нам нужен Software Engineer, который будет превращать записи с роботов и внешние датасеты в понятный, проверяемый и воспроизводимый формат для обучения моделей.
- Проектировать и реализовывать пайплайны, которые превращают данные из разных источников в формат, пригодный для обучения моделей.
- Стабилизировать основной путь конвертации данных с роботов: единый поддерживаемый процесс, проверяемые результаты, повторяемые запуски и понятные отчеты об ошибках.
- Поддерживать dataset schema, versioning, compatibility checks, validators и manifests.
- Подключать новые источники данных: записи с роботов, внешние датасеты, симуляции, egocentric data, данные тестовых запусков и корректирующих демонстраций.
- Обеспечивать reproducible dataset builds и связь source data -> converted episodes -> filtered dataset -> dataset release -> training run -> benchmark result.
- Создавать validation suite: проверка файлов, video/parquet layout, timestamps, required fields, metadata, annotation status и known historical variants.
- Готовить данные к передаче в обучение так, чтобы ML-команды понимали состав датасета, ограничения, версию и качество.
- Делать надежные CLI/tools, тесты, runbooks и отладочные отчеты для исследователей и инженеров.
- Сильный Python и опыт разработки batch / data processing pipelines.
- Опыт backend, data engineering или software engineering для внутренних платформ и ML/data workflows.
- Опыт работы с большими файлами, metadata manifests, reproducible builds и validation logic.
- Практический опыт с Linux, Docker, Git, CI/CD и командной строкой.
- Понимание storage и data formats: S3/object storage, network storage, parquet, zarr, hdf5, webdataset, video files или аналогичные форматы.
- Умение разбираться в нестандартных форматах данных и приводить их к строгому контракту.
- Готовность писать поддерживаемый production-like код, а не одноразовые conversion scripts.
Будет плюсом:
- Опыт с LeRobot, RLDS, DROID / Bridge / RT-X-like datasets, ROS bags или robotics trajectories.
- Опыт с Ray, Airflow, Prefect, Kubernetes, SLURM, LSF или другими orchestration / job systems.
- Опыт с W&B, MLflow, Hydra configs, experiment tracking или dataset management systems.
- Понимание computer vision, multimodal data, VLA, imitation learning или robot learning.