Foundation Model Data Pipelines
~35 мин
Data Curation, Deduplication and Filtering
Near-duplicate search, quality scoring, unsafe content filtering, caption quality and why data quality can dominate architecture changes.
Что изучаем
Near-duplicate search, quality scoring, unsafe content filtering, caption quality and why data quality can dominate architecture changes.
Что закрываем на этапе
- Понять ключевые ограничения архитектуры или пайплайна для данного узла.
- Понимать диагностические сигналы в проде и во время разработки.
- Знать, где обычно ломается воспроизводимость и как проверять гипотезы.
Как проработать на собеседовании
Готовься не “перечислять термины”, а объяснять причинно-следственные связи между ограничениями системы, выбором решений и компромиссами по латентности, стоимости и надежности.
Материалы
FineWeb: Decanting the Web for the Finest Text Data at Scale
https://huggingfacefw-blogpost-fineweb-v1.static.hf.space/
DataTrove — Hugging Face
https://github.com/huggingface/datatrove
Deduplicating Training Data Makes Language Models Better
https://arxiv.org/abs/2107.06499
The FineWeb Datasets
https://arxiv.org/abs/2406.17557
DataComp-LM
https://arxiv.org/abs/2406.11794