ML-разработчик (Inference)
Описание роли
На позиции ML-разработчика (Inference) в ML-сервисы Yandex Cloud вы будете отвечать за создание и оптимизацию высокопроизводительных систем инференса больших языковых моделей (LLM). Ваша задача — существенно повысить throughput и снизить latency при генерации текста, внедряя передовые техники speculative decoding, continuous batching и эффективное KV-cache. Вы будете работать над тюнингом таких фреймворков, как PyTorch, TensorRT и vLLM, проводить подробное профилирование узких мест на GPU-кластерах и разрабатывать кастомные CUDA/Triton-ядра для оптимизации памяти и вычислений.
Особенности вакансии
* Проектирование и развитие распределённых систем инференса с интеграцией в Kubernetes и сервис-меши.
* Поддержка multi-node сценариев (tensor/pipeline parallel) и автоматического масштабирования.
* Работа с высоконагруженными API: разработка SDK, API-интерфейсов и инструментов для развёртывания моделей.
* Оптимизация коммуникаций через NVLink, RDMA и другие технологии ускорения обмена данными.
* Поддержка on-premise-сценариев у ключевых клиентов и помощь в миграции в облако.
О компании
Yandex — ведущая международная IT-компания, предоставляющая облачные сервисы для бизнеса. ML-сервисы Yandex Cloud объединяют экспертизу в области искусственного интеллекта и масштабируемую инфраструктуру, обслуживая сотни крупных клиентов. Мы ценим инновационность, качество кода и открытость знаний: сотрудники участвуют в внутренних конференциях, менторских программах и хакатонах, а результат их работы используется в продуктах миллиона пользователей.
Подписка TalentMove
Больше,
чем вакансии
→ TalentScanAI
Узнайте стоимость вашего опыта на рынке
→ Закрытое сообщество
Нетворкинг и инсайды рынка труда
→ Топ вакансии
Лучшие вакансии с доставкой в Telegram