Video and Audio Generation

Text-to-video, image-to-video, temporal modeling, identity preservation, audio generation and modality-specific failure modes.

Что изучаем

Text-to-video, image-to-video, temporal modeling, identity preservation, audio generation and modality-specific failure modes.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

Hugging Face Diffusion Course

https://huggingface.co/learn/diffusion-course/unit0/1

OpenAI Sora Technical Report

https://openai.com/research/video-generation-models-as-world-simulators

Stable Video Diffusion

https://arxiv.org/abs/2311.15127

Meta: Animating AI-generated Images at Scale

https://engineering.fb.com/2024/08/14/production-engineering/how-meta-animates-ai-generated-images-at-scale/

Let's Enhance + NVIDIA: Serving SDXL

https://developer.nvidia.com/blog/generate-stunning-images-with-stable-diffusion-xl-on-the-nvidia-ai-inference-platform/

Multimodal Conditioning

GenAI Evaluation

Назад к роадмапу