Runtime Optimization Stack

ONNX Runtime, TensorRT, Triton, torch.compile, quantization and when each layer of the stack is worth the complexity.

Что изучаем

ONNX Runtime, TensorRT, Triton, torch.compile, quantization and when each layer of the stack is worth the complexity.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

NVIDIA TensorRT Documentation

https://docs.nvidia.com/deeplearning/tensorrt/latest/

NVIDIA Triton Inference Server Docs

https://docs.nvidia.com/deeplearning/triton-inference-server/user-guide/docs/

TensorRT-LLM Documentation

https://nvidia.github.io/TensorRT-LLM/

Inference Optimization Foundations

High-Load Serving Patterns

Назад к программе