Базовый ML
Путь от нуля до уверенного Junior ML Engineer: математика, Python, классический ML и первые нейросети.
🧱 Фундамент
Python для ML
NumPy, pandas, matplotlib — основной стек для работы с данными.
SQL
Запросы, джоины, оконные функции — must have для любого DS/ML.
Математика и статистика
Линейная алгебра, матстат, теория вероятностей — фундамент для понимания алгоритмов.
Сложность алгоритмов (Big O)
O(1), O(n), O(n²) — как оценивать скорость кода и оптимизировать алгоритмы. Топ-вопрос на собесах.
Метрики классификации
Precision, Recall, F1, ROC-AUC, PR-AUC — как оценивать качество моделей.
Несбалансированные данные
SMOTE, class weights, подбор порога, PR-AUC — как работать с дисбалансом классов.
Классический ML
Деревья, бустинг, линейные модели, кластеризация — основа большинства production-решений.
🔬 Глубина
Основы нейросетей
Перцептрон, MLP, backpropagation, функции активации и потерь — как нейросети учатся.
Архитектуры: CNN, RNN, Transformer
Обзор семейств нейросетей — свёрточные, рекуррентные, трансформеры. Зачем каждое и где применяется.
Оптимизация и регуляризация
SGD, Adam, LR schedulers, dropout, batch norm — как обучать нейросети эффективно.
PyTorch: train loop на практике
Dataset, DataLoader, train step, checkpoints, inference — полный цикл обучения модели с кодом.
PyTorch Lightning
опц.Абстракция train loop, callbacks, logging, воспроизводимость — индустриальный стандарт обучения.
Feature Engineering
Target encoding, interaction features, datetime decomposition, binning — как из сырых данных создать признаки, которые реально улучшают модель. На Kaggle фичи решают больше, чем выбор алгоритма.
Валидация и подбор моделей
Cross-validation, гиперпараметры, bias-variance trade-off, Optuna.
Подбор гиперпараметров
Grid Search, Random Search, Bayesian Optimization (Optuna), early stopping, learning rate schedules.
Основы MLOps
опц.Docker, DVC, MLflow, эксперименты — как довести модель до продакшна.
Интерпретируемость моделей
опц.SHAP, LIME, feature importance, partial dependence — как объяснить предсказания модели.
Подготовка к собеседованию
Python, SQL, математика, классический ML и Deep Learning — ключевые вопросы для подготовки к собеседованию.