Inference Optimization and High-Load Serving
~35 мин
Latency, Cost and Observability
p50/p95/p99, queue depth, GPU utilization, cost per request, model regressions and product-facing reliability metrics.
Что изучаем
p50/p95/p99, queue depth, GPU utilization, cost per request, model regressions and product-facing reliability metrics.
Что закрываем на этапе
- Понять ключевые ограничения архитектуры или пайплайна для данного узла.
- Понимать диагностические сигналы в проде и во время разработки.
- Знать, где обычно ломается воспроизводимость и как проверять гипотезы.
Как проработать на собеседовании
Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.
Материалы
ML Monitoring — Evidently AI
https://www.evidentlyai.com/ml-monitoring
Interleaving in Online Experiments at Netflix
https://netflixtechblog.com/interleaving-in-online-experiments-at-netflix-a04ee392ec55
Uber Michelangelo ML Platform
https://www.uber.com/en-GE/blog/michelangelo-machine-learning-platform/