High-Load Serving Patterns
Async APIs, queues, streaming, cancellation, continuous batching, GPU scheduling, autoscaling and graceful degradation.
Что изучаем
Async APIs, queues, streaming, cancellation, continuous batching, GPU scheduling, autoscaling and graceful degradation.
Что закрываем на этапе
- Понять ключевые ограничения архитектуры или пайплайна для данного узла.
- Понимать диагностические сигналы в проде и во время разработки.
- Знать, где обычно ломается воспроизводимость и как проверять гипотезы.
Как проработать на собеседовании
Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.
Материалы
https://bentoml.com/llm/inference-optimization/static-dynamic-continuous-batching
https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/user_guide/model_ensemble.html
https://engineering.fb.com/2024/07/10/production-engineering/tail-utilization-ads-inference-meta/
https://opensource.microsoft.com/blog/2022/04/19/scaling-up-pytorch-inference-serving-billions-of-daily-nlp-inferences-with-onnx-runtime
https://www.anyscale.com/blog/ray-serve-inference-lower-latency-higher-throughput-haproxy