102868 вакансий +154 сегодня

ML-разработчик (Inference)

400,000 - 600,000 RUB
На 25% больше рынка

Описание роли

На позиции ML-разработчика (Inference) в ML-сервисы Yandex Cloud вы станете ключевым специалистом, отвечающим за повышение производительности и надёжности инференса больших языковых моделей. Ваша работа затронет все уровни системы: от низкоуровневых GPU-оптимизаций до распределённой оркестрации контейнеров. Основные задачи включают:
* Оптимизацию throughput и latency при генерации LLM (спекулятивный декодинг, continuous batching, KV-cache).
* Профилирование и тюнинг фреймворков (PyTorch, TensorRT, vLLM), конфигурацию GPU-кластеров и работу с памятью (NVLink, RDMA).
* Разработку и поддержку распределённых систем для инференса (Kubernetes, сервис-меши, балансировщики, многозвенные сценарии tensor/pipeline parallel).
* Создание кастомных CUDA/Triton-ядр, написание низкоуровневых операторов и оптимизацию вычислений под Tensor Cores.
* Разработку API, SDK и инструментов для MLOps: автоматизация развёртывания и обновления моделей, поддержка on-prem и облачной инфраструктуры.

Особенности вакансии

* Гибридный формат работы в московском офисе Yandex Cloud с возможностью удалённых дней.
* Конкурентная зарплата 400–600 тыс. RUB, компенсация обучения и технических сертификаций.
* Разнообразие задач: от низкоуровневого программирования на CUDA/C++ до высокоуровневой интеграции в Kubernetes.
* Доступ к современным GPU-кластером и закрытым бенчмаркам производительности.
* Участие в развитии одного из крупнейших облачных ML-сервисов на рынке: динамика объёма LLM-инференса растёт более чем на 50% ежегодно (random_fact).

О компании

Yandex Cloud — часть экосистемы Яндекса, ведущая облачная платформа с инструментами для AI/ML, big data и аналитики. Мы предоставляем решения для крупных российских и международных компаний, инвестируем в исследования и развитие технологий искусственного интеллекта. В команде Yandex Cloud ценятся инновации, открытый обмен знаниями и ответственность за результат.

Партнёрское размещение. ERID 2W5zFHoQEpH Партнёрское размещение. ERID 2W5zFJWuthw
Оценка вакансии
6.8 / 10
Вакансия ML-разработчика Inference в Yandex Cloud предлагает интересную работу над оптимизацией LLM-инференса на GPU, гибридный формат и конкурентную зарплату 400–600 тыс. RUB. Проект предусматривает разнообразные задачи от CUDA-оптимизации до оркестрации Kubernetes, что открывает широкие перспективы профессионального роста в ведущей AI-компании.
Опубликовано:

Будьте в курсе новых вакансий

Подпишитесь на наш Telegram-канал

Мы используем cookie. Нажимая «ОК», вы принимаете Политику конфиденциальности и cookie.