LLM Evaluation, Latency and Cost

Offline evals, human preference, LLM-as-judge limits, hallucination checks, token economics and latency/cost trade-offs.

Что изучаем

Offline evals, human preference, LLM-as-judge limits, hallucination checks, token economics and latency/cost trade-offs.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

A Survey on Evaluation of Large Language Models

https://arxiv.org/abs/2307.03109

Evaluate Documentation — Hugging Face

https://huggingface.co/docs/evaluate/index

Building Effective Agents — Anthropic

https://www.anthropic.com/research/building-effective-agents

LLM serving: KV-cache и батчинг

Generative Modeling Foundations

Назад к программе