Multimodal Conditioning

Text, image, video, pose, depth, segmentation, audio and reference conditioning via cross-attention, adapters and ControlNet-style branches.

Что изучаем

Text, image, video, pose, depth, segmentation, audio and reference conditioning via cross-attention, adapters and ControlNet-style branches.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

Adding Conditional Control to Text-to-Image Diffusion Models

https://arxiv.org/abs/2302.05543

CLIP: Learning Transferable Visual Models From Natural Language Supervision

https://arxiv.org/abs/2103.00020

ControlNet with Diffusers

https://huggingface.co/docs/diffusers/using-diffusers/controlnet

Diffusion, Flow Matching and DiT

Video and Audio Generation

Назад к роадмапу