LLM Scaling and Architecture

Decoder-only transformers, MoE, long context, KV-cache implications, scaling laws and practical architecture trade-offs.

Что изучаем

Decoder-only transformers, MoE, long context, KV-cache implications, scaling laws and practical architecture trade-offs.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

Training Compute-Optimal Large Language Models

https://arxiv.org/abs/2203.15556

The Llama 3 Herd of Models

https://arxiv.org/abs/2407.21783

Transformers Documentation — Hugging Face

https://huggingface.co/docs/transformers/index

Training Stability and Checkpointing

LLM Fine-tuning and Post-training

Назад к роадмапу