ML-разработчик (Inference)

350,000 - 500,000 RUB

На 10% больше рынка

Описание роли

В роли ML-разработчика (Inference) в команде ML-сервисов Yandex Cloud вы возьмёте на себя ответственность за оптимизацию и масштабирование процессов инференса больших языковых моделей (LLM). Основная цель — обеспечить высокую производительность (throughput) и минимальную задержку (latency) при генерации текста и других задачах на базе трансформеров. Вы будете работать над внедрением передовых техник speculative decoding, continuous batching и оптимизацией KV-cache, а также над тонкой настройкой фреймворков PyTorch, TensorRT и vLLM.

Ваши ключевые задачи:
• Оптимизация throughput и latency при генерации LLM с акцентом на CUDA- и TensorRT-ядра.
• Разработка и развитие распределённых систем инференса с интеграцией в Kubernetes, сервис-меши и автомасштабирование.
• Проектирование multi-node сценариев (tensor и pipeline parallelism), настройка NVLink и RDMA для ускоренного обмена между GPU.
• Низкоуровневая оптимизация: написание CUDA/Triton-кернелов, профилирование памяти и вычислений, создание кастомных операторов.
• Разработка API и SDK для развёртывания моделей, автоматизация обновлений, поддержка on-premise у заказчиков.

Особенности вакансии

Эта позиция идеально подойдёт тем, кто хочет влиять на ключевые сервисы облачной платформы и работать с реальными LLM-нагрузками. Среди особенностей и преимуществ:
• Доступ к мощным GPU-кластеру и современным фреймворкам ML-разработки.
• Гибридный формат работы: два–три дня в неделе в московском офисе, остальные — удалённо.
• Возможность выбирать и комбинировать направления по интересам, от low-level оптимизации до полного DevOps-инжиниринга.
• Взаимодействие с экспертами в области deep learning, участие в международных конференциях и внутренних tech-talk.
• Карьерный рост внутри Yandex Cloud: от Senior до Teamlead, участие в стратегических проектах ML.

О компании

Yandex — ведущая технологическая компания с фокусом на инновациях в области искусственного интеллекта и облачных решений. ML-сервисы Yandex Cloud предоставляют инфраструктуру и инструменты для разработки и развёртывания моделей, используемых миллионами пользователей и бизнесами по всему миру. Миссия команды — создавать надёжные и масштабируемые AI-инструменты, которые ускоряют выход новых продуктов и улучшают опыт заказчиков.

Партнёрское размещение. ERID 2W5zFHoQEpH Партнёрское размещение. ERID 2W5zFJWuthw

Оценка вакансии

6.1 / 10

Вакансия предлагает уникальную возможность оптимизировать высоконагруженные LLM-инференсные сервисы в Yandex Cloud. Ключевые задачи включают настройку CUDA-кернелов и масштабирование распределённых систем, а гибридный формат и сильная команда обеспечивают отличные условия для профессионального роста.

Подписка TalentMove

Больше,
чем вакансии

→ TalentScanAI

Узнайте стоимость вашего опыта на рынке

→ Закрытое сообщество

Нетворкинг и инсайды рынка труда

→ Топ вакансии

Лучшие вакансии с доставкой в Telegram

Описание роли

Особенности вакансии

О компании

Похожие вакансии