Мы являемся международным стартапом из США, который работает в области искусственного интеллекта. Мы создаем мобильное приложение, охватывающее миллионную аудиторию, которое позволяет пользователям генерировать видео и фотографии, улучшать ваш контент в различных стилях и применять креативные правки.
Немного цифр:
- Более 3 млн скачиваний приложения в AppStore/GooglePlay
- Инвесторы с успешными экзитами (Looksery, AI Factory → Snap $150M+).
- $3M ARR, 150,000 пользователей в США и Европе.
Сейчас мы находимся в поиске Data Engineer уровня middle в свой дружный коллектив!
Мы гарантируем будущему коллеге:
- Удаленный формат работы
- Денежную компенсацию в долларах.
- Работа в международной компании
- Дружный молодой коллектив
- График работы 5/2, 8 часовой рабочий день
- Выходные на праздничные дни по Грузинскому календарю
- Оплачиваемый отпуск 28 дней, а также индивидуально day off's и sick days
Требования:
-
Более 1.5 лет опыта работы в области проектирования данных, бэкэнд-систем или инфраструктуры ML с фокусом на больших объемах неструктурированных данных.
-
Опыт сбора и обработки больших массивов данных (предпочтительно визуальных или мультимодальных).
-
Подтвержденный опыт работы с командами ML над конвейерами данных для обучения или оценки.;
- Опыт работы с веб-скреппингом, сбором данных API, а также масштабным сбором медиаданных.
- Навыки работы с облачными платформами (AWS/GCP) и озерами данных (S3, BigQuery и т. д.).
- Уверенное понимание метрик качества данных и их проверки в масштабе.
Дополнительные навыки (будет плюсом):
- Опыт работы с такими наборами данных, как LAION, COYO, OpenImages, и т.д., является существенным плюсом.
Чем предстоит заниматься:
- Созданием и масштабированием надежных систем сбора, фильтрации и обработки визуальных данных (изображения, видео, 3D, подписи, метаданные) из открытых и лицензированных источников.
- Разработкой и поддержкой автоматизированных конвейеров для аннотирования, дедупликации и дополнения обучающих данных.
- Сотрудничество с инженерами и исследователями в области ML для понимания потребностей в обучении моделей и обеспечения соответствия данных требованиям к качеству и разнообразию.
- Работать с инструментами и рабочими процессами для версионирования наборов данных, воспроизводимости, соответствия требованиям (например, проверка лицензий, управление согласием).
- Разработкой инфраструктуры для эффективного хранения и доступа к петабайтным массивам данных в облачных средах.
- Внедрением систем валидации, мониторинга и контроля качества для обеспечения целостности данных и их пригодности для обучения базовых моделей.
Если в этом описании вы увидели себя, смелее направляйте резюме!