К реальным собесам
Реальный собесAgeCode2026-03-26

AgeCode MLSD: поиск по статьям, BM25 и RAG

ML System Design собеседование про поиск по базе статей: BM25 baseline, hybrid retrieval, offline/online evaluation и related articles через reranker.

Таймлайн собеседования

Компактный список вопросов и задач по ходу записи: раскрывайте только нужные детали.

00:07:52-00:08:34MLSD

Разделить сценарии: suggest и free-text поиск

00:08:34-00:10:57MLSD

Почему начинать поиск по статьям с BM25 baseline

00:10:57-00:13:03MLSD

Offline-разметка релевантности и NDCG

00:13:03-00:14:49MLSD

Online-метрики: нашел ли пользователь ответ

00:14:49-00:17:35MLSD

Candidate generator, hybrid retrieval и reranker

00:19:16-00:19:52MLSD

Как генерировать suggest-вопросы из статей

00:21:07-00:22:24MLSD

Related articles: precompute или context-aware блок

00:23:23-00:24:05MLSD

Какие online-сигналы использовать для обучения reranker

00:26:24-00:27:36MLSD

LLM как финальный reranker нескольких статей

Выводы и как готовиться

  • Даже для RAG/search кейса стоит начинать с BM25 baseline, чтобы было с чем сравнивать embeddings и reranker.
  • Метрики нужно разделять на offline relevance, online поведение пользователя и production guardrails.
  • Related articles можно делать precomputed baseline, а затем усиливать query-aware reranker.