Мы в GigaChat делаем core-технологию генеративной языковой модели: она пишет тексты, генерирует изображения, пишет код, отвечает на вопросы и ведёт диалоги.
Прошлой осенью мы выпустили сильную русскоязычную модель GigaChat MAX уровня GPT-4 (метрики — в статье на Habr). Зимой выложили в открытый доступ одну из наших MoE-моделей. И на этом не остановились — двигаемся дальше!
Сейчас у нас фокус в несколько направлений:
1. Исследования и эксперименты
— стабилизация и развитие архитектур (новые виды attention, улучшение тестового стенда изменений)
— методы улучшения обучения (оптимизация, лоссы и режимы вроде FIM/MTP, балансировка MoE)
— скейлинг-законы (для гиперпараметров, качества и стоимости)
— постоянный разбор свежих статей и идей индустрии
2. Инфраструктура и параллельные тренировки
5-D параллелизм, ускорение мультимодальных и гигантских MoE-моделей на больших кластерах.
3. Фреймворк распределённого обучения
Разработка GigaFSDP, эксперименты с FP8/mixed-precision, устойчивость и эффективность обучения на больших масштабах.
4. Низкоуровневые оптимизации
Оптимизация операций на уровне CUDA/triton ядер, улучшение производительности NCCL, профилирование и устранение узких мест.
5. Качество и метрики
Развитие оценки GigaChat: от международных олимпиадных задач до метрик, специфичных для русского языка.
Будет плюсом:
Даже если у тебя нет опыта с LLM, но ты много занимался NLP исследованиями или инженерными оптимизациями — не стесняйся откликнуться!
Отраслевой центр разработки и внедрения информационных систем / ОЦРВ
Москва
Не указана
Москва
Не указана
Научно-Технический Центр Корней
Москва
от 120000 RUR