Вакансия Inference-инженер в городе Москва

Описание вакансии

Ищем Inference-инженера в Точка Банк. Мы — финтех-компания, создаём онлайн-банк и экосистему сервисов для бизнеса. В нашей команде больше 6 000 сотрудников, а сервисами пользуются более 800 000 клиентов.

О команде

Ты будешь работать в команде разработки внутренней LLM-платформы. Наш фокус — техническая инфраструктура и базовые инструменты. Мы развиваем LLM-гейтвей, инференс внутренней LLM, систему Information Retrieval и guardrails. Именно на этих компонентах строится работа с нейросетями.

Фактически мы создаём технологическую основу для LLM-автоматизации в банке. Наша задача — сделать так, чтобы всё работало стабильно и качественно. Поэтому задачи будут техническими, с минимальным взаимодействием с продуктом.

Мы плотно работаем с инференс-движками: не просто запускаем, а конфигурируем под highload и патчим исходный код при необходимости.

Что делать

Разрабатывать высокопроизводительный inference-слой. Оборачивать ML-модели в оптимальные сервисы: настраивать токенизацию, динамический батчинг, работу с GIL и асинхронностью, оптимизировать использование GPU- и CPU-ресурсов.
Работать с деплоем. Настраивать CI/CD, работать с Kubernetes. А также разрабатывать решения для деплоя сервисов, который работают с ML-моделями, включая LLM.
Поддерживать стабильность сервисов. Работать с техническим долгом, проводить code review, настраивать детальный мониторинг и алертинг, вести архитектурную документацию.
Драйвить R&D. Индустрия LLM постоянно меняется, поэтому нужно исследовать новые методы оптимизации и инструменты, чтобы платформа всегда использовала лучшие практики.

Ты подойдешь, если

Есть опыт работы с Python и asyncio, а также с aiohttp и FastAPI от 3 лет.
Любишь работать на низком уровне: тебе интересно разбираться, как инструменты работают под капотом, а также оптимизировать их производительность.
Спокойно относишься к тому, что в поиске лучшего решения код может часто меняться или «выбрасываться».
Комфортно работаешь в условиях неопределённости и быстрых экспериментов.
Умеешь брать ответственность за результат и коммуникацию.
Самостоятельно организуешь свою работу и определяешь вектор, исходя из прозрачных целей команды.
Есть опыт работы с ML-инфраструктурой и ML-сервисами. Понимаешь базовые принципы работы LLM, их ограничения и возможности.

Будет преимуществом:

Опыт работы с vLLM или SGLang в роли инженера, а не только пользователя. Например, понимаешь принципы работы KV-cache и разницу между prefill phase и decoding phase.
Опыт GPU-оптимизации. Например, написание GPU Kernels на CUDA или Tritonlang/Tilelang.

Что ждет тебя в Точка Банк

Официальная зарплата до 575 000 ₽. Точная сумма зависит от твоих навыков и ожиданий — обсудим их на собеседовании. Это сумма до вычета налогов. Помни, что с 2025 года ставка НДФЛ меняется в зависимости от суммарного дохода за год.
Пятидневная рабочая неделя с гибким началом и окончанием дня.
Удалёнка или любой офис в городах присутствия. Наши офисы — это продуманные опенспейсы с комфортными рабочими местами и зонами отдыха. Ты можешь самостоятельно выбрать, где работать — ходить в офис необязательно.
Понятная система развития и роста по грейдам.
Возможность работать по-своему. Никто не будет навязывать свои методы, трекать время и контролировать каждое действие.
Возможность влиять на стек, процессы внутри команды и в работе с другими. Если предлагаешь идеи и улучшения — ты будешь услышан.
Бесплатное обучение: ты сможешь ездить на IT-конференции, митапы и хакатоны и проходить курсы за счёт компании. А ещё пользоваться нашей библиотекой и платформой с онлайн-курсами.
Комфорт не только в работе, но и в жизни. После испытательного срока: ДМС со стоматологией, психолог, чекапы здоровья и 4 дополнительных дэй-оффа в год.
Бонусы от партнёров: Skillbox, Skyeng, Яндекс Практикум, Ясно и других.
Онлайн-кабинет сотрудника, где ты можешь заказать справку, поставить отпуск или отгул, заказать технику или посмотреть выплаты.
Активная корпоративная жизнь: устраиваем кинопоказы, спортивные марафоны и корпоративы, которые потом ещё долго вспоминают.

Посмотреть контакты работодателя

Адрес

Зарплата
до 575000 RUR
Занятость
,
Опыт работы
От 3 до 6 лет
Дата размещения:
01.04.2026 10:31:34

Inference-инженер

Inference-инженер

Описание вакансии

Адрес

Краткое описание вакансии

Зарплата

Занятость

Опыт работы

Дата размещения:

Похожие вакансии

MlOps inference engineer

Хотите оставить вакансию?