LLM serving: KV-cache и батчинг
Как LLM отвечает токен за токеном: prefill/decode, KV-cache, continuous batching, метрики задержки и выбор vLLM/SGLang/TensorRT-LLM/TGI.
Что изучаем
Как LLM отвечает токен за токеном: prefill/decode, KV-cache, continuous batching, метрики задержки и выбор vLLM/SGLang/TensorRT-LLM/TGI.
Что закрываем на этапе
- Понять ключевые ограничения архитектуры или пайплайна для данного узла.
- Понимать диагностические сигналы в проде и во время разработки.
- Знать, где обычно ломается воспроизводимость и как проверять гипотезы.
Как проработать на собеседовании
Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.
Материалы
https://cs336.stanford.edu/spring2025/
https://huggingface.co/docs/transformers/continuous_batching
https://bentoml.com/llm/inference-optimization/llm-inference-metrics
https://arxiv.org/abs/2309.06180
https://docs.vllm.ai/en/stable/features/automatic_prefix_caching/
https://docs.sglang.io/
https://developer.nvidia.com/blog/spotlight-perplexity-ai-serves-400-million-search-queries-a-month-using-nvidia-inference-stack
https://developer.nvidia.com/blog/spotlight-naver-place-optimizes-slm-based-vertical-services-with-nvidia-tensorrt-llm/