Москва
Глубокое понимание RL для LLM/VLM (RLHF, GRPO, PPO). Понимание полного цикла обучения VLM/LLM (pretrain → SFT → RL) и того...
Формировать техническую стратегию RL-направления: определять приоритетные домены, выбирать подходы, строить роадмап несколько кварталов вперед. Принимать ключевые архитектурные решения: выбор...