Foundation Model Data Pipelines

Collection, licensing, preprocessing, metadata, captioning, filtering and reproducible dataset versions for large models.

Что изучаем

Collection, licensing, preprocessing, metadata, captioning, filtering and reproducible dataset versions for large models.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

Hugging Face Datasets Docs

https://huggingface.co/docs/datasets/index

DataComp: In Search of the Next Generation of Multimodal Datasets

https://arxiv.org/abs/2304.14108

LAION-5B: An Open Large-scale Dataset for Training Next Generation Image-Text Models

https://arxiv.org/abs/2210.08402

Latency, Cost and Observability

Data Curation, Deduplication and Filtering

Назад к роадмапу