LLM serving: KV-cache и батчинг

Как LLM отвечает токен за токеном: prefill/decode, KV-cache, continuous batching, метрики задержки и выбор vLLM/SGLang/TensorRT-LLM/TGI.

Что изучаем

Как LLM отвечает токен за токеном: prefill/decode, KV-cache, continuous batching, метрики задержки и выбор vLLM/SGLang/TensorRT-LLM/TGI.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.