High-Load Serving Patterns

Async APIs, queues, streaming, cancellation, continuous batching, GPU scheduling, autoscaling and graceful degradation.

Что изучаем

Async APIs, queues, streaming, cancellation, continuous batching, GPU scheduling, autoscaling and graceful degradation.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

Static, Dynamic and Continuous Batching — BentoML

https://bentoml.com/llm/inference-optimization/static-dynamic-continuous-batching

Triton Model Ensembles

https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/user_guide/model_ensemble.html

Meta: Tail Utilization of Ads Inference

https://engineering.fb.com/2024/07/10/production-engineering/tail-utilization-ads-inference-meta/

Hypefactors + ONNX Runtime at NLP Inference Scale

https://opensource.microsoft.com/blog/2022/04/19/scaling-up-pytorch-inference-serving-billions-of-daily-nlp-inferences-with-onnx-runtime

Ray Serve Online Inference Upgrade

https://www.anyscale.com/blog/ray-serve-inference-lower-latency-higher-throughput-haproxy

Runtime Optimization Stack

Latency, Cost and Observability

Назад к программе