ML-разработчик (Inference)

400,000 - 700,000 RUB

Описание роли

На позиции ML-разработчика (Inference) в Yandex Cloud вы станете частью ключевой команды ML-сервисов и возьмёте на себя ответственность за обеспечение стабильного и эффективного инференса больших языковых моделей (LLM). Ваша первая задача — гарантировать высокий throughput и минимальную задержку (latency) при генерации текста, используя передовые техники GPU-ускорения и распределённой обработки. Роль идеально подходит специалистам с глубоким пониманием архитектуры трансформеров, практическим опытом оптимизации на уровне CUDA/Triton и желанием масштабировать решения на тысячи запросов в секунду.

Ваши ключевые обязанности:
• Оптимизация throughput и latency при инференсе LLM: внедрение speculative decoding, continuous batching, KV-cache и других методик.
• Тюнинг и ускорение моделей с помощью PyTorch, TensorRT, vLLM и аналогичных фреймворков, работа с Tensor Cores.
• Разработка кастомных CUDA/Triton-ядер, профилирование, оптимизация памяти и вычислений, интеграция NVLink и RDMA.
• Проектирование распределённых систем инференса: интеграция с Kubernetes, gRPC, сервис-мешами, настройка балансировщиков и автоматического масштабирования под multi-node сценарии.
• Создание и поддержка платформенных сервисов: API, SDK и внутренних инструментов для развёртывания, версионирования и обновления моделей в облаке и on-premise.
• Внедрение механизмов observability и мониторинга для выявления узких мест и предотвращения простоев.

Уникальность вакансии

Работая в Yandex Cloud, вы получите уникальный опыт:
• Инфраструктура мирового уровня: доступ к современным GPU-кластерам и передовым технологиям NVIDIA.
• Реальные LLM-продукты в продакшене: воздействуйте на архитектуру и продолжительность обслуживания крупных корпоративных клиентов.
• Гибридный формат работы: свобода выбора между офисом в технопарке и домашним рабочим местом.
• Профессиональный рост: участие в внутренних и международных конференциях, возможность сертификации и обмена опытом с экспертами ML-индустрии.
• Влияние на стратегию: ваши решения будут напрямую отражаться на качестве сервиса для тысяч пользователей.

О компании: Яндекс

Yandex — ведущая российская IT-компания с международным признанием, специализируется на поисковых технологиях, облачных сервисах и искусственном интеллекте. Yandex Cloud предлагает B2B-решения для цифровой трансформации крупных предприятий, а ML-сервисы являются одним из самых быстрорастущих направлений. Компания придерживается ценностей открытости, инноваций и командного взаимодействия, обеспечивая сотрудникам конкурентный социальный пакет, прозрачную карьерную траекторию и комфортные условия работы в современных офисах.

Партнёрское размещение. ERID 2W5zFHoQEpH Партнёрское размещение. ERID 2W5zFJWuthw

Оценка вакансии

5.1 / 10

Это предложение сочетает передовые задачи по оптимизации LLM-инференса и работу с GPU-кластерами мирового уровня в Yandex Cloud. Гибридный формат, впечатляющий стек технологий и перспектива профессионального роста делают вакансию привлекательной для опытных ML-инженеров.

Подписка TalentMove

Больше,
чем вакансии

→ TalentScanAI

Узнайте стоимость вашего опыта на рынке

→ Закрытое сообщество

Нетворкинг и инсайды рынка труда

→ Топ вакансии

Лучшие вакансии с доставкой в Telegram

Описание роли

Уникальность вакансии

О компании: Яндекс

Похожие вакансии