Реальный собесHuawei2026-04-23
Huawei LLM Engineer: inference optimization и vector search
Англоязычный technical deep dive по LLM serving: KV cache, speculative decoding, FlashAttention, quantization и distributed vector retrieval.
Таймлайн собеседования
Компактный список вопросов и задач по ходу записи: раскрывайте только нужные детали.
Выводы и как готовиться
- В LLM serving важно говорить не только про модель, но и про prefill/decode, память, batching, latency и throughput.
- Speculative decoding нужно объяснять через draft model, target model и acceptance ratio.
- Vector search лучше начинать с требований: corpus size, QPS, latency, recall и freshness.