Мы — исследовательская команда, работающая на переднем краю LLM-технологий. Мейнстрим LLM-рецепт — это потолок, который мы пытаемся пробить: ищем архитектурные ходы, новые objective-функции, нестандартные режимы reasoning'а — всё, что может дать кратный прирост качества/скорости.
Жизненный цикл идеи: от гипотезы до PoC-фреймворка и прода флагманской LLM.
Если коротко: мы ищем людей, которым интересна прикладная исследовательская работа в среднем и высоком risk-reward профиле.
Над чем сейчас работаем (краткий примерный список):
* альтернативные архитектуры — encoder-decoder, гибридные attention (linear + softmax), sparse/MoE с нестандартным dispatching'ом, итеративные/loop-трансформеры;
* новые training objectives и режимы обучения — multi-token и future-state prediction, RL-pretraining, дистилляция против ансамблей teacher-моделей;
* reasoning — латентный/омнимодальный reasoning, обучаемые value-сети, MCTS-подобный поиск, self-play, ансамбли гетерогенных моделей;
* эффективность и inference — адаптивные вычисления, MoD/early-exit, serving для нестандартных архитектур;
* специализированные направления — символьные/фонетические задачи, креативная генерация, agentic capabilities.
Какие-то из гипотез этих треков доедут до PoC/прода, какие-то умрут на small-scale. Это ожидаемо.
One More Thing:
Если вы рок-звезда (уровень техлида и выше) — у нас отдельный трек найма. Предлагаем compute без бюрократии, можем обсудить запуск нового research-трека под вас, потенциально своя команда и инженерная поддержка под скейлинг, прямое участие в стратегии направления — что мы делаем, во что не верим, на чём фокусируемся на длинном горизонте.
Мы делаем ставку на архитектурные и training-инновации, где количество GPU перестаёт быть единственным фактором. Если такая постановка задачи будоражит кровь — пишите.
* разбирать существующие LLM-пайплайны до компонент, находить места для апгрейда не на 1%, а в разы;
* формулировать research-гипотезы и доводить их от абляций до полного pretrain/post-train цикла со scaling laws;
* обучать, валидировать, имплементировать новые архитектуры и objectives — иногда с залезанием в инфраструктуру (kernel'ы, training-фреймворк, serving);
* упаковывать результаты, доводить до PoC, инференс-движка, пилотных проектов;
* публиковаться на A/A*-конференциях — опционально, но мы поощряем.
* глубокое понимание современного трансформера и этапов LLM-пайплайна;
* умение писать качественный и воспроизводимый ML-код, опыт запуска/обучения моделей в multi-gpu (лучше в multi-node) режиме;
* практический опыт на каком-то из этапов LLM-строения — индустриальный или серьёзный pet-project, формат не принципиален;
* хорошая насмотренность по литературе и способность читать paper'ы критически, отличать зёрна от плевел;
* умение быстро валидировать смелые гипотезы;
Будет плюсом:
* опыт в классическом ML/NLP до эпохи больших моделей;
* публикации уровня A/A* и опыт прохождения review-цикла;
* опыт large-scale training (multi-node, FSDP/DeepSpeed/Megatron);
* призовые места в Kaggle и подобных.
Институт искусственного интеллекта AIRI
Москва
Не указана
ФГУП ГлавНИВЦ Управления делами Президента Российской Федерации
Москва
Не указана
ФГАОУ ВО РОССИЙСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ МЕДИЦИНСКИЙ УНИВЕРСИТЕТ им.Н.И. ПИРОГОВА МИНИСТЕРСТВА ЗДРАВООХРАНЕНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Москва
до 1000000 RUR