К реальным собесам
Реальный собесHuawei2026-04-23

Huawei LLM Engineer: inference optimization и vector search

Англоязычный technical deep dive по LLM serving: KV cache, speculative decoding, FlashAttention, quantization и distributed vector retrieval.

Таймлайн собеседования

Компактный список вопросов и задач по ходу записи: раскрывайте только нужные детали.

00:04:44-00:06:10MLSD

Как думать про distributed vector search

00:06:10-00:07:25Вопрос

Какую роль ожидают: roadmap, technical plans и запуск проектов

00:07:25-00:17:58Behavioral

Какие вопросы задать про бизнес и команду

00:17:58-00:18:25Вопрос

Что такое KV cache в LLM inference

00:21:41-00:22:51Вопрос

Сколько draft tokens генерировать в speculative decoding

00:23:04-00:23:16Вопрос

Почему acceptance ratio может оставаться высоким

00:23:16-00:24:10Вопрос

Как работает speculative decoding и acceptance ratio

00:23:52-00:26:36Вопрос

Какой вариант speculative decoding использовался

00:26:36-00:27:05Вопрос

Что знать про FlashAttention на LLM-интервью

00:28:51-00:30:49Вопрос

Какие типы quantization использовал: W8A8, W4A16 и другие

00:30:49-00:31:10Behavioral

К какому проекту кандидат подходит сильнее

Выводы и как готовиться

  • В LLM serving важно говорить не только про модель, но и про prefill/decode, память, batching, latency и throughput.
  • Speculative decoding нужно объяснять через draft model, target model и acceptance ratio.
  • Vector search лучше начинать с требований: corpus size, QPS, latency, recall и freshness.