Data Curation, Deduplication and Filtering

Near-duplicate search, quality scoring, unsafe content filtering, caption quality and why data quality can dominate architecture changes.

Что изучаем

Near-duplicate search, quality scoring, unsafe content filtering, caption quality and why data quality can dominate architecture changes.

Что закрываем на этапе

Понять ключевые ограничения архитектуры или пайплайна для данного узла.
Понимать диагностические сигналы в проде и во время разработки.
Знать, где обычно ломается воспроизводимость и как проверять гипотезы.

Как проработать на собеседовании

Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.

Материалы

FineWeb: Decanting the Web for the Finest Text Data at Scale

https://huggingfacefw-blogpost-fineweb-v1.static.hf.space/

DataTrove — Hugging Face

https://github.com/huggingface/datatrove

Deduplicating Training Data Makes Language Models Better

https://arxiv.org/abs/2107.06499

The FineWeb Datasets

https://arxiv.org/abs/2406.17557

DataComp-LM

https://arxiv.org/abs/2406.11794

Foundation Model Data Pipelines

Streaming DataLoaders and Storage

Назад к роадмапу