FSDP, DeepSpeed ZeRO and Sharding

Why optimizer states dominate memory, how FSDP/ZeRO shard params, gradients and optimizer state, and when sharding pays off.

Что изучаем

Why optimizer states dominate memory, how FSDP/ZeRO shard params, gradients and optimizer state, and when sharding pays off.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

PyTorch FSDP Docs

https://docs.pytorch.org/docs/stable/fsdp.html

DeepSpeed ZeRO-3 Docs

https://deepspeed.readthedocs.io/en/stable/zero3.html

ZeRO: Memory Optimizations Toward Training Trillion Parameter Models

https://arxiv.org/abs/1910.02054

Distributed Training Foundations

Parallelism and Memory Engineering

Назад к роадмапу