Inference Optimization Foundations

Latency, throughput, memory, cost, profiling, bottleneck attribution, batching trade-offs and hardware-aware thinking.

Что изучаем

Latency, throughput, memory, cost, profiling, bottleneck attribution, batching trade-offs and hardware-aware thinking.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

torch.compile — PyTorch Docs

https://docs.pytorch.org/docs/stable/generated/torch.compile.html

ONNX Runtime Graph Optimizations

https://onnxruntime.ai/docs/performance/model-optimizations/graph-optimizations.html

PyTorch Profiler Recipe

https://pytorch.org/tutorials/recipes/recipes/profiler_recipe.html

GenAI Evaluation

Runtime Optimization Stack

Назад к роадмапу