Москва
Опыт в DL, понимание архитектуры трансформеров и тонкости их обучения. Работа с распределенным обучением (DDP, DeepSpeed, FSDP). Написание кода на...
Разрабатывать и обучать модели в распределенном режиме. Исследовать новые подходы для разных этапов обучения: pretraining и адаптации модели под конкретные...