К реальным собесам
Реальный собесWaymo2026-03-05

Waymo MLSD: поиск дорожных сцен по тексту

ML System Design собеседование про retrieval-систему для автономного вождения: по текстовому запросу находить релевантные сегменты дорожных сцен из последовательностей изображений.

Таймлайн собеседования

Компактный список вопросов и задач по ходу записи: раскрывайте только нужные детали.

00:02:58-00:09:29MLSD

Как сформулировать text-to-scene retrieval задачу

00:09:29-00:13:44Вопрос

Как использовать понимание текущей системы autonomous vehicle

00:13:44-00:15:35Вопрос

Какие text encoders подойдут для запросов к дорожным сценам

00:15:44-00:19:24MLSD

Как получить пары текстовый запрос — дорожный сегмент

00:19:24-00:27:16MLSD

Как устроить dual encoder retrieval для последовательностей изображений

00:20:54-00:22:21Вопрос

Как агрегировать frame embeddings в segment vector

00:23:06-00:25:04Вопрос

Как применять Vision Transformer к последовательности изображений

00:26:31-00:27:16MLSD

Что еще нужно договорить в retrieval до reranking

00:28:05-00:39:40MLSD

Как добавить reranker и мониторить деградацию retrieval

00:30:28-00:39:40Вопрос

Какие metadata features добавить в reranker

00:43:57-00:47:10Вопрос

Какой bottleneck у генерации synthetic/simulation data

Выводы и как готовиться

  • Сначала нужно зафиксировать единицу поиска: кадр, короткий клип или дорожный сегмент.
  • Retrieval лучше строить двухступенчато: dual encoder/ANN для кандидатов и reranker с метаданными/перцепционными признаками.
  • Для CV+NLP системы особенно важны разметка, negative mining, drift embedding-распределений и ручная проверка top-k.